GLM-5の性能がすごい。大手商用モデルに追いついてきた。

GLM-5が出ていたので、公式サイトで試してみました。
https://chat.z.ai/

ちょっと触った感じ、かなり賢く、複雑なコードも書け、日本語もうまく表現力が高いです。
これは大手の商用モデルに追いついてきているように思います。

公式ブログはこちら。
https://z.ai/blog/glm-5
問題は、モデルがオープン化されるのかどうか、というところ。
ウェイトも公開されています。744B-A40Bの模様(2:45追記)
https://huggingface.co/zai-org/GLM-5

パストレーシング

「HTML+JSでパストレーシングを作って」で、エラーを一回出しただけで動かしてきました。すごい。

レンダリングできたあと、ズームなどの動きを調整してもらったのだけど、この指示への対応もOpusさんに指示するときのような安心感がありました。

Spring BootでのTODO管理

z.aiのサイトにエージェントモードがあったのでSpring BootでのTODO管理アプリを試してみました。

Spring Bootでtodo管理アプリを作って。
Spring MVCでテンプレートにthymeleafを使って。
DBはH2でアクセスにはSpring JDBCを。
Spring Bootは3.5.9、Maven管理でJavaのバージョンは25

プランを立てて実装を進めていきます。

途中止まってしまったので、無料での限界かな?と聞いてみたら「続けます!」って返ってきてかわいい。

そして出来上がったTODO管理がこれ。検索などもあって高機能です。

これは本格的にコーディングエージェントに使えそうです。

ブロック崩し

一応、JavaScriptでのブロック崩しも。

まあ動くので、Javaに変換してもらう。
そうすると、メソッド呼び出しの引数を書かないというミス。

main.java:100: エラー: 文ではありません
            drawEndMessage;
            ^

そのあと、閉じカッコのないミス。

main.java:11: エラー: 文字列リテラルが閉じられていません
        setTitle("ブロック崩し - Java Swing版;
                 ^

これはパストレーシングやTODO管理の完成度を考えるとありえないようなミスです。気にとめておいたほうがいいかも。

まあ、コンパイルエラーを解決すると、動きました。

一応、最初からJavaのバージョン。こちらはコンパイルエラーなしに動いたけど、最初パドルが表示されてませんでした。伝えたら修正。

いずれにせよ、エラーなども的確に修正してきますね。

複雑な問題

コーディングがかなりできるのがわかったので、通常の複雑な問題を。

「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。
年齢制限なく対応できるように。

おぉ!訂正があったとはいえ、 100 + 900 x (64 / (age + 1) )を出してきた!

Thinkingじゃないけど、実質的にThinkingをやっています。

Deep Thinkありだと、一発で正解を出しました。

試行錯誤でいろいろ試して正解にたどりついたのではなく、正解への目安から式を立てていってたので、考え方もかなり賢いです。

小説を作ってもらう

日本語力や創作性を見るために異世界モノ小説を作ってもらいます。

小説をつくってほしい。勇者が力に目覚めて、魔王に捕らえられた姫を助けにいく。現代の東京に、なぜか剣と魔法を使う世界が発生した状況で。

自然な日本語。
結末で、また新たなクエスト発生するのも、異世界ものをちゃんと踏襲してていいですね。

日本知識と表現

日本ローカルな知識を見るために山口県についてきいてみます。

「宗像・沖ノ島と関連遺構群」のところは間違ってますが、だいたいあっていて、河豚を「ふく」というなど細かい知識もある様子。
錦帯橋日本三景ではないな。

そして表現力を見るためにギャルっぽく説明をやってもらう。

歴女のあたしたち」だった。これ、表現力の低いモデルでは語尾や使う単語だけ変わったりするんですが、ちゃんとギャルのロールプレイをして書いてることが伺えます。
しかし「コンクリートで作られた日本的な城」ってコンクリート再建天守を皮肉ってるんかw
萩城は再建されてない。

要約

注文の多い料理店」の要約。もう「注文の多い料理店」だとバレてますが。
的確で、読みやすい要約です。文章力の高さがうかがえる。

まとめ

ということで、ローカルの細かい知識以外は、幅広く能力が高いですね。
モデル公開されるかどうかは不安ですが、モデルを動かす環境の確保は大変ですが、API利用やチャット利用で普通に常用する候補にできそうです。