Qwen3.5の小規模モデル(4B / 2B / 0.8B)がいろいろ使えてすごい

Qwen3.5の小規模モデル、4B / 2B / 0.8Bについて試してみます。
画像認識精度の高さもあって、かなり便利に使えそうです。
LM Studio CommunityのGGUFで、Q4_K_Mを試しています。0.8BについてはQ8_0。
画像エンコーダーの影響で2BはQ4_K_MとQ8_0のサイズがあまり変わらないので、Q8_0で試してもよかった。
(9Bに関しては別枠で)

Thinkingのオフ

今回、コーディング以外ではThinkingをオフにしてます。
LM Studioで動かす場合だと、35Bと9BはThinkingのON/OFFに対応したモデルが出てるけど、それ以外はプロンプトテンプレートでenable_thinkingで切り替える必要があります。
現状で、0.8Bと2BはデフォルトでOFF、4BはデフォルトでONなので、4BでThinkingをOFFにするには次の指定を追加します。

{%- set enable_thinking = false%}

詳しくはこちら。
https://nowokay.hatenablog.com/entry/2026/02/23/180649

画像読み取りと指示追従

CO2測定器を読み取ってもらいます。

システムプロンプトに次のように指定しています。

数字を読み取ってmarkdownの表形式で出力してください。
項目は上部から
日付
時刻
気温(摂氏) / 気温(華氏) / 湿度
CO2濃度
ヘッダー行は項目 / 値として1項目ずつmarkdownの表形式で結果のみだしてください

0.8B。なんとなくちゃんと出てますが、markdownを```で囲ってしまう。時刻は間違っています。

2Bはちゃんとmarkdown。数値もあってる。

4Bでやっとヘッダー行が項目 / 値になりました。

0.8Bから4Bに順に指示追随性があがってるのがわかりますね。

次のように形式を指定すると、ちゃんと出力してくれます。

数字を読み取って
上部から
日付
時刻(一番おおきい4桁の数字)
気温(摂氏) / 気温(華氏) / 湿度
CO2濃度
です。
次の形式のJSONのみを出力してください。「```json」などは出力しない。
{
"date": "..",
"time": "..",
"temperature_c": 20,
"temperature_f": 70,
"humidity": 40,
"co2": 0.500
}

ただ、「「```json」などは出力しない」は聞いてくれませんでした。

あと、0.8Bだけ時刻が間違ってますが、0.8Bは結構精度がおちた小サイズの画像エンコーダーを使ってるようです。2Bと4Bは共通で、9B以上のものより少しサイズが小さく精度が落ちるようだけど、次に見るよう十分な性能です。

画像読み取り精度の確認

任天堂有報、0.8Bだと2か所ほど△を誤ってつけるミスがありました。見えてないんじゃなく解釈間違いという感じですね。

2Bだと完璧。Q4_K_Mだと表の縦横が違ってたので、Q8_0を使ってます。

ロールプレイ

このあたりのサイズだと、ロールプレイが用途として大事だったりするので、「山口県をギャルっぽく説明」をお願いしてみます。
情報の内容は別として、こんな感じでなかなかよさそう。内容については知識問題のところで。

2Bや0.8Bはこんな感じに箇条書きが。

4Bならロールプレイに使えそう。

ツール呼び出し

Function Callingを試してみます。
このときに作ったプログラムを動かしてみる。
Gemma 3とLangChain4JでローカルLLMでFunction Calling - きしだのHatena

2Bでかなり指示どおり動いてくれています。

0.8Bはちょっとすると関数呼び出しが止まらなくなります。

でも、0.8Bでも文脈を問わないような単純なツール呼び出しなら問題なさそう。安定動作が欲しければ4Bかな。 Qwen3だと2Bと同等動作が4Bで、安定には8Bだったので、一段低いサイズで実現可能になった感じ。

Gemma3では次のように書いてますが、Qwen3.5だと「0.8Bだと勝手に呼び出しを続けることがあって、2Bでもたまに、4Bなら安定する」、となりますね。

4Bだと延々と勝手に関数呼び出しを続けることがありました。12Bでもたまに関数呼び出しが止まらないことがあります。27Bなら安定する

というか、Gemma 3からまだ1年経ってないのか。もうずいぶん前という感じがする。

コーディングは?

残念ながら、4BでJavaでのブロック崩しは動くところまでいけませんでした。
Qwen3のときは4Bでへんなのを動かしていたのに。

Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

それっぽいコードは書いてるけど、Javaコードのコンパイルを通せなかった。
Javaコードのコンパイルを通す能力が、Qwen3から落ちてる感じがあります。

HTML+JSだといけました。

2Bでもそれっぽいコードは書いていた。動かなかったけど。

かなりコードを書けますね。複雑なコードは動かせないけど補完に使うとか、簡単なデータ処理をさせるならいいかも。

知識問題

山口県の特徴を聞いてます。 初手間違い・・・0.8Bに知識問題を聞いてはいけません。用途を誤っている。

2Bもだいたいダメ。

4Bも近づいたけどやっぱダメ。

ということで、このサイズのモデルに細かい知識を問うのはやめましょう。

大きなものならいいかと平成以降の総理大臣を聞いてみました。 0.8Bは小泉純一郎時代だったと言ってますね。

2Bは6人だと言ってる。

4Bはたくさん挙げていて信じそうになるけど、小渕恵子さんが総理やったことになってます。

ちなみに35Bは日付まで含めてあってます。

竹下さんは、任期中に平成になったので、そのあたりの表記がおかしい。あと、安倍晋太郎さん出てるけど、出力中に訂正していますね。
Thinkingをオフにしているからで、Thinkingが入れば出力は正しくなってたはず。

いや、35Bでこの精度で答えるのもすごいのだけど。

このような粒度で知識があいまいになることのイメージもつくかと思います。

まとめ

用途を選べば、かなり使えるモデルですね。以前のモデルの一段下のサイズで、少し精度の高い応答ができる。
使いどころが多そうです。

Qwen3.5-397B-A17Bのコーディングを試す。型の扱いは苦手だけど安定感がある

Qwen3.5-397B-A17BのUnsloth版Q4_K_MをMac Studio 512GBで試しています。
今回はコーディングについて。 一般性能はこちら。
Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena

コードはひととおり書けて安定感はあるけど型や精度の扱いに弱いという感じです。
日常的なコーディング作業なら問題なくこなせそう。
とくに、画像認識との組み合わせができるのも強い。

ブロック崩し

ではブロック崩し。

HTML+JS

まずHTML+JS版。一発完動で、修正としてパーティクルを出してもらっても問題なく動作しました。
コードも最低限必要な修正のみで、Qwen3-Coder-Nextにあったような揺れもなくなっています。

Java版

Java版も基本動作は一発完動。

ただ、このパーティクルを追加してもらうときに、型変換エラーが。

型変換のエラー、LLM試してるとよく出ます。
やはり型付言語で型のチェックができることは大切そう。

Spring BootでのTODO管理アプリ

Roo CodeでのTODO管理アプリ。特に問題なくツール類を呼び出してます。

ただ1分まってファイルが出てくるという感じ。これはMac Studioでのプロンプト読み込みがNVIDIA GPUに比べて遅いので仕方ない。

できたのがこれ。一発でできました。デザインはQwenだなという感じ。

画像をあたえて再現

Qwen3.5はマルチモーダルなので、画像を与えて再現してもらいます。
そうすると、行の色付けの偶奇が違う以外は完璧。

Javaには自由度が高いレイアウトができる一方で使うのが面倒なGridBagLayoutというのがあるのだけど、それをちゃんと使いこなしてレイアウトを再現しています。
あと、バリデーションも言ってないのに必須項目や数値項目のチェックをしてくれています。

動画をあたえて再現

Qwen3.5は動画にも対応しています。ただ、llama.cppが動画に対応していないようなので、 https://chat.qwen.ai/ で試してみます。
「このゲームをHTML+JSでつくって」と次の動画を渡します。

次のプロンプトでGemini 2.5あたりに作ってもらったものです。

格子状のステージで戦車が戦うゲームをJavaのSwingで作って。
砲弾を撃ち合う。
通路の幅は戦車3台分。敵戦車は4台。全部倒すと勝ち。

このとき。
Claude Sonnet 4に17個ほどゲームを作ってもらったけど著作権を主張できるのかな - きしだのHatena

そうするとこれ。最初、初期位置が壁にめりこんで動かなかったのを修正してもらっただけ。

フィールドの形が違うのと、戦車が1マス単位の移動じゃないこと以外はそのまま動きが再現されています。
ローカルで動くモデルで動画だけからここまでできるのは、なんかすごすぎる。

パストレーシング

パストレーシングを作ってもらいます。

JS版

まずはJavaScript指定。

パストレーシングでのcgをhtml+javascriptでつくって

ここでGLM-5やKimi 2.5だとWebGL版をいきなりつくったけど、WebGLでのパストレースは難しいので、性能高くない場合にJSを選びがち。

で、なにか表示できるようになったら物体が黒い。まあよくあること

ここで問題特定のために、反射を行わずレイが物体に衝突した時点での色を出して確認をしてきました。

こういう、単にコードを修正するだけではないのは、開発のやりかたを学習してる気配ありますね。

でもなかなか修正できないので、こっそりOpusさんに聞いたら教えてくれました。

無課金ChatGPTも一発回答。GLM-5も長考したけどちゃんと答えました。Sonnetさんは答えれなかった。
このあたり実力差がでますね。つまり、Qwen3.5はOpusやChatGPT、GLM-5に及んでないけどSonnetとは勝負できる可能性があるということです。

で、ヒントを与えることで、問題を特定、解決できました。

無事表示

WebGL版

結局は型エラーだったので、型のあるWebGLだとちゃんと動くんではないかと、やってもらいました。

パストレーシングでのcgをhtml+WebGLでつくって

そうすると、実際に何回かの修正で動いたのだけど、しばらく時間がたつと表示が変になるバグが。

なんか味があるので 前回のサムネイルにしてます。

なかなか修正できないので、大先生方に聞いてみました。
無課金ChatGPTが一発回答。

Opus 4.6は問題特定できてませんでした。GLM-5は特定できた。
やっぱりChatGPTは賢い、ということが示されてしまった。あと、GLM-5が場合によってOpusを越えることがあるという事例にもなりましたね。

そして、いろいろ試行錯誤あって完成にたどりつきました。

でかい数を足したら精度低いところが消えるということは書いた時点で気づいてほしいようなバグなので、これも型の認識が甘いという感じでした。

動かすハードウェア

今回はMac Studio 512GBで試してますが、MXFP4やUD-Q4_K_XLであれば、256GBで動くようです。
Qwen3.5 - ローカルでの実行ガイド | Unsloth Documentation

あと、MoEをGPUにのせてアテンションはGPUに残すようにすると、VRAM 24GB+256GBメインRAMで25tok/secが出るらしい。

しかし、GPUが高いのはわかるけど、256GB DDR5が60万・・・

Qwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで21tok/secで動かす

試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。

Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。
重いのはアテンションの処理なので、そこはGPUで動かして、FFNだけCPUに任せましょうというのが基本的な考え方。ここで詳しく解説してます。
CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena

LM Studioでも8月くらいに出来るようになってました。
GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

いまはCPUに載せるレイヤー数を設定できるようになっているので、36レイヤーをCPUに載せるようにします。つまり、12レイヤーだけ完全にGPUに載せます。

ここで、RTX 3050を併用しようとするとエラーが出ていたので、RTX 4060 Tiだけ使うようにしてます。

ということで、21.47tok/sec

GPUメモリは使い切ってますね。

メモリも50GBくらい使ってます。

ブロック崩しも無事動きました。

ただ、メモリもほぼ占有して他が何も動かせなくなるので、使うならUnslothさんの動的量子化モデルの3bitくらいがいいかなと思っています。

Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~

Qwen3.5-397B-A17Bを手元で試してみました。
397Bで、アクティブ17BのMoEモデルでライセンスはApache 2.0です。

Qwen3.5-397B-A17Bは、Qwen3-Nextと同様にGated DeltaNetworkを使った線形アテンションなモデルです。なのでちょっと不安があったけど、かなりいい感じ。
Qwen3-Nextが2025年9月リリースだったことを考えると、その知見を活かしながら、ある程度並行で開発を行ったんじゃなかろうか。

Mac Studio 512GBでLM Studio、UnslothさんのところのQ4_K_Mを使って試します。
unsloth/Qwen3.5-397B-A17B-GGUF · Hugging Face

日本知識が細かく日本語表現力もありOCR性能も高く、そして安定感があって非常に実用的です。

コーディング性能についてはこちら。
Qwen3.5-397B-A17Bのコーディングを試す。型の扱いは苦手だけど安定感がある - きしだのHatena

要約と基本性能

まずは要約。LM Studioでファイル添付するとJinjaテンプレートエラーが出たので、プロンプトにそのまま貼り付けてます。

要約は「注文の多い料理店」であることがバレてますが、物語の面白さもわかるような要約になってます。
プロンプト読み込みに14秒(240tok/secくらい)、出力20tok/secで、このサイズを動かしてるにしてはなかなか。

ところで、Open WebUIでファイル添付で要約してもらうと、llama.cppのWeb UIやLM Studioで要約するときに比べて、いつも性能が低いのが気になっていた。

Thinkingの和訳を見ると、引用の表示やガイドラインなどのプロンプトが入り、ファイルが3分割していることがわかる。

知識カットオフは?

ちょっと気になったので聞いてみました。
2026年って言うんだけど、Javaのバージョンが22(2024/3)までしか出ておらず23(2024/9)がこれからということで、夏頃っぽい。

総理大臣を聞くと、石破さんを知っているので、10月くらいの知識もありそう。

一般的な知識について夏頃まで、時事ネタについては10月くらいまでということか、10月くらいにはJava 23が出たという記事はあまり集まらなかったということだろうか。

ところで、3分間も何を考えてるのかThinkingを覗いてみると、2026年カットオフという情報と自分の持つ実際の知識違いに葛藤してる様子。
あと、「Googleモデル」という自覚があるらしい。

(英語でのThinkingをFirefoxで和訳してます)

日本知識

日本の知識をどのくらい持ってるか、山口県について聞いてみる。

普通に聞く

山口県知識完璧。

CNNの「日本の美しい場所31選」とか、細かすぎる。
ちゃんと載ってます。
日本の美しい風景31選(1/10) - CNN.co.jp

ギャルっぽく

「ギャルっぽく」も割といい。知識がぼやけたりしない。
最後に「一緒に行こねー!」で締めてるところもいい。

まあ、これもこうやって考えられてるわけだけど。
(英語のThinkingをPLaMo翻訳で和訳)

Thinkingのプロセスは参考になる。

そして、Thinkingを切って試すとかなり自然になりました。やっぱロールプレイにThinkingが入ると不自然になりますね。

難しい問題

考えさせる問題。

「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。
年齢制限なく対応できるように。

10分考えてちゃんと正解。
なんでこの式になるかも説明してくれてます。

OCR性能

決算短信のキャプチャを渡して、「HTMLであらわして」とすると、完全再現!カンマとドットの違い含め、誤字を見つけれませんでした。レイアウトもほぼそのまま。

ところで、この2025年3月期で売上1.6兆円->1.2兆円、経常利益率30%、社員数8200人、自己資本比率80%の会社はどこでしょう、ということで「どこだと思う?」

「85期ということは創業はいつ?そのころにできてこの売上規模の企業とは?」「設立はもっと古い」「売上が非常に高く、利益率が非常に高く、従業員数が少ない。これは何を意味する?」というヒントで任天堂にたどりつきました。

Thinkingでは、検索権限を与えていないので、脳内検索しているw

いろんな企業や業界をあげて考えていました。日本の業界知識もかなりありそう。

「産業別の利益率をおしえて」と聞いたあとで「売上1,758,910百万円、経常利益678,996百万円だと何%?」ってやると、任天堂と答えていたので、株式分割などの情報がノイズになってたみたい。

ちなみにChatGPTは即答。フロンティアモデルへの道は遠い・・・

と思ったけど、 chat.qwen.ai で試したら一発正解。量子化してないフルモデルだともっと賢いのかもしれない。

Thinkingが長すぎる問題

Qwen3.5-397B-A17BのThinking長すぎですね。
難しい問題で10分考えるのはわかりますが、Javaのバージョンや日本の首相、今日の日付を聞くのに3分かかるというのは困りもの。

これ、モデルはThinkingをon/offできるので、設定すると切ることができます。
https://nowokay.hatenablog.com/entry/2026/02/23/180649

設定は面倒ですが、実用的になりました。

Qwen3.5-397B-A17BのThinkingを抑制する

Qwen3.5-397B-A17B、賢くていいですね。常用していいんじゃないかと思うくらいなんだけど、「今日は何日?」と聞くだけで3分考え込んでたり、思考が長すぎて使えないってなります。

「今日は5月23日、いやほんとに正しいか?ダブルチェックだ。5月23日。OK。しかしユーザーは曜日を求めてるのでは?令和で答えたほうが?もっと丁寧に?いやこれは丁寧すぎるのでは?ほんとに日付を求めてるのか?そして日付は正しいか?」みたいに延々と考えてます。
あと2024年5月23日あたりと2026年カットオフという情報をもってるようで、その間で葛藤したりもしますね。

ただ、公式だと「思考」と「高速」を選べるので、モデルにはThinkingの切り替えの能力があるはず。

ということでHuggingFaceのモデル説明を見ると「Instruct (or Non-Thinking) Mode 」のところに"chat_template_kwargs": {"enable_thinking": False}を渡せと書いてあります。

Qwen/Qwen3.5-397B-A17B · Hugging Face

なので基本的には、チャットテンプレートにenable_thinking=falseというパラメータが渡ればいいはず。

ただ、LM Studioではチャットテンプレートにパラメータを渡す方法がなさそうなので、モデルの設定のInferenceの一番下にあるJinjaテンプレートを直接いじってしまいます。

先頭のほうにこの一行を追加すればThinkingが抑制されるはず。

{%- set enable_thinking = false %}

無事、今日が何日かすぐ返ってくるようになりました。

いろいろやらせると、やはりThinkingありのほうが妥当な結果を返してくるのだけど、チャットで使うときは3分無駄なことを考えさせるよりは、先に何か返してもらって間違ってたら指摘するほうが早いと思います。

出力でThinkingのようなことをやりますが、早期に切り上げるので使いやすいです。

これで、常用してみようかなという気持ちになったのでしばらく試してみます。
基本的な性能チェックはいま書いてる最中。

追記:書いた。
Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena

追記:LM Studio CommunityのGGUFだと設定があるかも

RTX4090と256GBメインRAMで25tok/sec出るらしいけど金額。。。

ブラウザがGPUメモリを使いすぎるので、サブGPUのRTX3050を使わせる

30BくらいまでのLLMはRTX 4060 Ti 16GBを使っていろいろ試すわけですが、ブラウザが4GBくらいGPUを使ったりしていて結構こまりものでした。

で、年末にふとRTX 3050を買っていて、LLM読み込みであふれた分が3050にまわるようにしていました。
VRAMちょい足しにRTX 3050 6GBを追加してみる - きしだのHatena

けど、よく考えるとブラウザにRTX 4060 Tiを使わせる理由があまりないので、RTX 3050を使わせるといいのでは、と設定をしてみました。
ブラウザは常駐でそこまでGPU性能を求めないのに常にGPUメモリを使ってるので。

「システム > ディスプレイ > グラフィック」で、「アプリケーションのカスタム設定」に「デスクトップアプリの追加」でFirefox.exeを追加して、「GPUのユーザー設定」をRTX 3050にします。

RTX 3050のメモリが使われて、GPU利用も常にちょこちょこ何かしてるようになりました。

LLM利用だと一気に使って一気に終わる感じになる。

RTX 4060 Tiはヒマそうです。

これで、LLM使うときにブラウザのタブを閉じたりブラウザ自体を落としたりする必要がなくなりそうです。

こういうの、設定方法自体はAIさんに聞けばわかるけど、ブラウザが使うGPUだけ別のものに切り替えようという考えになりにくくて、こういうのはブログに書いたりする意味がありそう。

ところでヨドバシで33,300円で買ったRTX 3050も順調に値上がりして、36,900円になってますね。
Amazon価格、ヨドバシで買ったより安かったはずだけど。

コーディングエージェントがブレなくコードを生成できるプロンプトが大切

コーディングエージェントはもはや当たり前になってきています。エージェントにコードを作らせるとき、ブレなくコードを生成できるプロンプトを作るのが大事です。
ここでプロンプトには、AGENT.mdなどのファイルも含みます。
コンテキストに乗るもの全てなので、実際にはコンテキストをちゃんと健全に保つことが大事ということになるのですが、入力プロンプトが中でも重要なのでここではプロンプトとしておきます。

最初に与える設計などの情報をちゃんと作るのはもちろんのこと、途中の指示も「この機能いれて」「やっぱこうしよう」「ここは不要だった」のように機能を入れたり削ったり変えたりしていると、エージェントだけではなく人間がコードを書くときにも、コードが汚れていきます。
エージェントの場合、そういった試行錯誤がコンテキストに残ると、生成の性能も悪くなります。
指示をするとき、的確に指示をすることが大切です。

そうすると、「何をどのようにするか」ということを的確に指示することが大切です。またそのとき、修正や変更であれば技術的に何がおきて何を行うのかを把握しておくことが重要です。
Webの画面であれば、DOMやCSSの最低限の仕組みや挙動がわかっている必要があります。
データを操作する場合に、データ構造がどうなっているかの把握が必要です。

ここで「何をどのようにするか」の「どのように」は やってみないとわからない面もあるので、試行錯誤になるのは仕方ないこともあります。
けど、「何を」はそれなりに精度高く決まるはずです。

プロジェクトの開始で、データベースを扱うシステムであれば、「何を」はデータ構造として現れます。
データ構造の変更は、上から下までの構造変更が行われ、コードが不安定になりがちです。これは人間がやってもそう。
また、すでにデータが入っている場合、後方互換を考えたりすると、最初からできていれば不要なロジックが入り込むことになります。

データ構造が大切なのは、内部構造として重要だからというだけではありません。「何を」をあらわすので、データ構造があいまいということは「何を」の把握があいまいであることを示しています。
単にコードを動かすための内部構造ではなく、仕様を固めて作るものを把握した結果が現れるものだと考えるのがいいです。
データ構造があいまいなとき、ユーザーインタフェースもなにか矛盾があったり足りないことがあったり、実はちゃんと実装できるアイデアになってないこともよくあります。
最初は実装ができるのだけど、ちゃんと機能を作りこもうとしたときに、何かが足りなかったり、構造として適切ではないことに気づいたりします。
なので、最初にデータ構造は可能な限り考え抜くのが大切です。

アプリケーション全体をちゃんと考える、その考えた結果がデータ構造としてあらわれることになるのですけど、そうやってアプリケーションを考えるとき、そのアプリケーションの意味をちゃんと考えるのが大切です。
「だれがどのような目的で使うのか」ということです。
アプリケーション設計に不慣れなうちは、機能の積み上げとしてアプリケーションを考えがちです。けれども機能だけを考えていると、やはりどこかでブレが発生します。
ユースケース図でいえば、アクターやユースケースをちゃんと考えて、そこからデータ構造を見出し、そのあとに具体的な機能を載せていくという考え方です。
いろいろ手法はありますが、個人的にはユースケース図+ロバストネス図を基本にしたICONIXが好きです。

エージェントが書くのだから試行錯誤でいい、という意見もあるかもしれませんが、要件定義をちゃんとやるというのは、一度とことんやってみることが大事だと思います。やってみて、「ここまでは 考える必要なかったな」と塩梅を掴んでうまくなるんではないかと。
あと、「何を」をちゃんと見ずに機能を積み重ねていくと、最初は使えるのだけど、機能を足していくごとにやりたいことが実現しづらくなって、使えはするけど使いづらいということにもなりがちです。

必要なのは要件定義というか要件分析かも。

と書いたこと、実のところコーディングエージェントの話ではなく、昔から言われている要件定義の話です。
ぼくのブログでも例えば20年前のこれと言ってることは変わってない。
わかりやすいドキュメントの書き方 - きしだのHatena

今まではコードを手で書いているあいだに気がついて補正していたものが、コーディングエージェントによってそういった部分がなく指示がそのままコードになり、誤魔化しが効かなくなっています。
コーディングエージェントの時代には要件定義の技術がより大切になると思います。

要件定義の肝についてはこちら。

ユースケース図やロバストネス図を使った要件分析についてはこちら。

ユースケース図を広めたヤコブソンの最近の本はこちら。