2026-02-01から1ヶ月間の記事一覧
Qwen3.5-397B-A17BのUnsloth版Q4_K_MをMac Studio 512GBで試しています。 今回はコーディングについて。 一般性能はこちら。 Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena コードはひととおり書けて安定感…
試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。 Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。 重いのはアテンションの処理なので、そこはGPUで動かして、…
Qwen3.5-397B-A17Bを手元で試してみました。 397Bで、アクティブ17BのMoEモデルでライセンスはApache 2.0です。 Qwen3.5-397B-A17Bは、Qwen3-Nextと同様にGated DeltaNetworkを使った線形アテンションなモデルです。なのでちょっと不安があったけど、かなり…
Qwen3.5-397B-A17B、賢くていいですね。常用していいんじゃないかと思うくらいなんだけど、「今日は何日?」と聞くだけで3分考え込んでたり、思考が長すぎて使えないってなります。 「今日は5月23日、いやほんとに正しいか?ダブルチェックだ。5月23日。OK。…
30BくらいまでのLLMはRTX 4060 Ti 16GBを使っていろいろ試すわけですが、ブラウザが4GBくらいGPUを使ったりしていて結構こまりものでした。 で、年末にふとRTX 3050を買っていて、LLM読み込みであふれた分が3050にまわるようにしていました。 VRAMちょい足し…
コーディングエージェントはもはや当たり前になってきています。エージェントにコードを作らせるとき、ブレなくコードを生成できるプロンプトを作るのが大事です。 ここでプロンプトには、AGENT.mdなどのファイルも含みます。 コンテキストに乗るもの全てな…
Step 3.5 FlashはStepFun AIが開発した196B アクティブ11Bのモデルです。 ここで試せます。 https://stepfun.ai/ 公式サイトで生成がめちゃ速い。 ここではStepFun自身が出しているQ4_K_SをMac Studio 512GBで試しています。 llama.cppではb7964でサポートさ…
MiniMax M2.5も来てました。 https://agent.minimax.io/ 日本語どうなったかなと、異世界小説を作らせてみたら、やっぱダメ 「日本語出るじゃん?」ってなったら、それはGemini 3.0 Proが動いてると思います。 ということで、あとは気がむいたらやる。 終了 …
GLM-5が出ていたので、公式サイトで試してみました。 https://chat.z.ai/ ちょっと触った感じ、かなり賢く、複雑なコードも書け、日本語もうまく表現力が高いです。 これは大手の商用モデルに追いついてきているように思います。 公式ブログはこちら。 https…
MeituanのLongCat-Flashのフラグシップモデル。 総パラメータは562Bで、アクティブパラメータが19B-32Bの可変で平均27B。 Mac Studio 512GBでMLX 4bitを試します。 日本語がかなりうまく、そのために使ってもよさそう。 ただ、562Bで重いので、おうちエージ…
LongCat-Flash-Liteは、Uber Eats的な会社、Meituan(美団)が1/30くらいに出した68.5Bでアクティブ3Bのモデルです。ライセンスはMIT。 ということでMac Studio 512GBのLM StudioでMLX 4bitを試したのだけど、速くて日本語表現はかなりいいしコードもちょっと…
VRAM96GBが使える環境が増えてきていますね。そんな中、どのLLMを使うのがいいか考えてみます。 候補としては、gpt-oss-120b、GLM-4.6V、Qwen3-Coder-Nextがあります。 で、まあ、安定性のgpt-oss、汎用性のGLM、複雑なコードはQwen3、という感じで使いわけ…
Qwen3-Coder-Nextが出ていますね。 Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding Qwen3-Next 80B-A3Bをベースにしたコーディングモデルです。80Bで、Activeパラメータは3Bということで、かなり軽快に動きます。 しかし、元になるQwen3-…