Z.aiのGLM-4.7のコーディング性能が高くて、動かす環境さえあれば自宅でコーディングエージェントが動かせるようになるので素敵です。
日本語表現力も高いので、コーディング以外でも広く使えそう。
GLM-4.7は355Bでアクティブ32Bです。MITライセンスです。どこにもライセンスファイル見当たらないけど。
https://z.ai/blog/glm-4.7
なので、Q4_K_Mで216GB、MLX 4bitで198GBあるので、おうちで動かすとしたらMac Studio 256GB以上ということになり90万円からとなりますが、GLM-4.7-Airがそこそこの性能で出てくれれば35万円のEVO-X2でも動くということになり、期待が持てます。
ところで12月に300Bレベルのモデルが3つ立て続けに出ていました。速度こんな感じ。
| モデル | サイズ | リリース日 | プロンプト | Thinking | tok/sec |
|---|---|---|---|---|---|
| unsloth/glm-4.7@q4_k_m | 355B-A32B | 12/23 | 5.5秒 | 58.4秒 | 16.1 |
| unsloth/glm-4.7@q4_0 | 4.7秒 | 57.5秒 | 18.9 | ||
| mlx/glm-4.7 | 1.2秒 | 49.3秒 | 20.1 | ||
| unsloth/mimo-v2-flash | 309B-A15B | 12/17 | 4.2秒 | --- | 43.4 |
| mlx/mimo-v2-flash | 0.5秒 | --- | 47.6 | ||
| unsloth/minimax-m2.1 | 230B-A10B | 12/24 | 3.9秒 | 16.2秒 | 47.5 |
| mlx/minimax-m2.1 | 0.3秒 | 4.8秒 | 48.0 |
この表を見るとGGUFよりMLXのほうがよさそうだけど、MLXはコンテキストが長くなると遅くなりかたが激しいのでGGUFを使ってます。
MacでLLMを動かすときMLX版はGGUF版に比べてプロンプト処理がかなり遅い - きしだのHatena
MiniMax M2.1についてはこちら。
MiniMax M2.1は割といいけど日本語が残念 - きしだのHatena
コーディングすごい
パストレーシングを作ってもらったら、露出や照明の明るさの問題はあったけど修正してもらって、こんな感じになりました。

ほぼリアルタイムに計算できているのは、WebGLでGPU使ってる。
これおうちの環境だけで動いてるのすごい。
ちょっとパラメータ違うけど、こんな画像ができました。

JSFiddleで試せます。
https://jsfiddle.net/uzcqpang/1/
あと、誤差逆伝播法のアニメーションも作ってもらいました。いろいろ修正してもらったけど、危なげなくコードを書いてました。

そしてJava版。GLM-4.7だけではなくAI全般で一旦HTML作ってもらってJavaに移植するほうがいいものができますね。

エージェントもちゃんと動く
OpenCodeと合わせると無償でGLM-4.7が試せます。
OpenCodeとGLM 4.7で無課金コーディングエージェント体験 - きしだのHatena
Roo CodeでもToDoアプリできました。

見た目もよい。

複雑なものでなければ、コーディングエージェントで十分に使えそうです。
日本語も得意、日本知識もありそう。
GLM-4.7は日本語も得意です。オープンモデルではGemma 3-27Bの表現力が高いですが、GLM-4.7も負けてないです。

あと、元乃隅神社を知ってるとか、日本知識がちゃんとありそう。
ちなみにGemma 3 27B。「マジ卍」好きすぎという問題はあるけど、「いいね爆発する自信ある」みたいに、ちゃんとギャルだからこそ言うという内容になってますね。

MiniMax M2.1だと、こう、語尾だけフランクにした感じになります。あと関門海峡は広島との間ではなく北九州との間ですな。

表現はGeminiが最高。Gemmaの親玉なので。ChatGPTはGLMとMiniMaxの間くらい。

MiniMax M2.1やMiMo-V2-Flashは中国語や英語が混じるので出力をそのまま使いたい用途には使えません。
論理思考
「64歳以上であれば100円、64歳未満は1000円」を整数四則演算のみという問題。
29分考えています。これはコンテキストが長くなるとその分遅くなるのもありますが、かなり考えて答えています。

しかしこれ、age / 64を使うとある程度は計算できることはわかりつつ年齢制限なしという条件で悩んでますね。
結局minを使って1か0になるようにしています。

正解にはたどり着いてないけど、ちゃんと考えれてますね。
Thinkingが長すぎる
先ほどの問題で29分も考え込んでましたが、GLM-4.7は簡単な質問でもThinkingが長すぎるのが難点です。
ディレクトリを消すコマンドを聞くのに40秒というのは長すぎますね。

内容見ると、答えは最初から出ていて、どう提示するかを考えたりしてるようですが、

thinking.typeをdisabledにすれば切れそうなんだけど、APIとして呼び出す場合でもLM Studioではうまく反映できてません。
https://docs.z.ai/api-reference/llm/chat-completion#body-one-of-0-thinking-type

Z.aiのサイトでは切り替えができますが、その場合でも、手動で切り替える必要があります。
https://chat.z.ai/

MiniMax M2.1と使い分けがいいかも
MiniMax M2.1がそれなりに賢くて速いです。
日本語やコードの質が不要なときはMiniMax M2.1を使って、エージェントではGLM-4.7を使う、という使い分けでローカルでやっていけそうな気配。
GLM-4.7、要件厳しくなかったら全然つかえる性能があるので、これが90万円や150万円のMac Studioじゃなくみんなのおうちで使えるようになると、またAIの状況が変わると思う。