2026-02-01から1ヶ月間の記事一覧

Qwen3.5-397B-A17Bのコーディングを試す。型の扱いは苦手だけど安定感がある

Qwen3.5-397B-A17BのUnsloth版Q4_K_MをMac Studio 512GBで試しています。 今回はコーディングについて。 一般性能はこちら。 Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena コードはひととおり書けて安定感…

Qwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで21tok/secで動かす

試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。 Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。 重いのはアテンションの処理なので、そこはGPUで動かして、…

Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~

Qwen3.5-397B-A17Bを手元で試してみました。 397Bで、アクティブ17BのMoEモデルでライセンスはApache 2.0です。 Qwen3.5-397B-A17Bは、Qwen3-Nextと同様にGated DeltaNetworkを使った線形アテンションなモデルです。なのでちょっと不安があったけど、かなり…

Qwen3.5-397B-A17BのThinkingを抑制する

Qwen3.5-397B-A17B、賢くていいですね。常用していいんじゃないかと思うくらいなんだけど、「今日は何日?」と聞くだけで3分考え込んでたり、思考が長すぎて使えないってなります。 「今日は5月23日、いやほんとに正しいか?ダブルチェックだ。5月23日。OK。…

ブラウザがGPUメモリを使いすぎるので、サブGPUのRTX3050を使わせる

30BくらいまでのLLMはRTX 4060 Ti 16GBを使っていろいろ試すわけですが、ブラウザが4GBくらいGPUを使ったりしていて結構こまりものでした。 で、年末にふとRTX 3050を買っていて、LLM読み込みであふれた分が3050にまわるようにしていました。 VRAMちょい足し…

コーディングエージェントがブレなくコードを生成できるプロンプトが大切

コーディングエージェントはもはや当たり前になってきています。エージェントにコードを作らせるとき、ブレなくコードを生成できるプロンプトを作るのが大事です。 ここでプロンプトには、AGENT.mdなどのファイルも含みます。 コンテキストに乗るもの全てな…

Step 3.5 Flashはコードは書けるが不具合対応が下手すぎる

Step 3.5 FlashはStepFun AIが開発した196B アクティブ11Bのモデルです。 ここで試せます。 https://stepfun.ai/ 公式サイトで生成がめちゃ速い。 ここではStepFun自身が出しているQ4_K_SをMac Studio 512GBで試しています。 llama.cppではb7964でサポートさ…

MiniMax M2.5は日本語があいかわらずダメ

MiniMax M2.5も来てました。 https://agent.minimax.io/ 日本語どうなったかなと、異世界小説を作らせてみたら、やっぱダメ 「日本語出るじゃん?」ってなったら、それはGemini 3.0 Proが動いてると思います。 ということで、あとは気がむいたらやる。 終了 …

GLM-5の性能がすごい。大手商用モデルに追いついてきた。

GLM-5が出ていたので、公式サイトで試してみました。 https://chat.z.ai/ ちょっと触った感じ、かなり賢く、複雑なコードも書け、日本語もうまく表現力が高いです。 これは大手の商用モデルに追いついてきているように思います。 公式ブログはこちら。 https…

LongCat-Flash-Thinking-2601は日本語が得意

MeituanのLongCat-Flashのフラグシップモデル。 総パラメータは562Bで、アクティブパラメータが19B-32Bの可変で平均27B。 Mac Studio 512GBでMLX 4bitを試します。 日本語がかなりうまく、そのために使ってもよさそう。 ただ、562Bで重いので、おうちエージ…

LongCat-Flash-Lite 70Bなら64GB Macで動くし速いがエージェント未対応

LongCat-Flash-Liteは、Uber Eats的な会社、Meituan(美団)が1/30くらいに出した68.5Bでアクティブ3Bのモデルです。ライセンスはMIT。 ということでMac Studio 512GBのLM StudioでMLX 4bitを試したのだけど、速くて日本語表現はかなりいいしコードもちょっと…

VRAM96GB(Unified memory 128GB)でどのLLMが使えるか

VRAM96GBが使える環境が増えてきていますね。そんな中、どのLLMを使うのがいいか考えてみます。 候補としては、gpt-oss-120b、GLM-4.6V、Qwen3-Coder-Nextがあります。 で、まあ、安定性のgpt-oss、汎用性のGLM、複雑なコードはQwen3、という感じで使いわけ…

Qwen3-Coder-Next 80Bがコード書けるけど失敗の質が悪すぎてダメな理由をアーキテクチャから見てみる

Qwen3-Coder-Nextが出ていますね。 Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding Qwen3-Next 80B-A3Bをベースにしたコーディングモデルです。80Bで、Activeパラメータは3Bということで、かなり軽快に動きます。 しかし、元になるQwen3-…