Step 3.5 Flashはコードは書けるが不具合対応が下手すぎる

Step 3.5 FlashはStepFun AIが開発した196B アクティブ11Bのモデルです。
ここで試せます。
https://stepfun.ai/

公式サイトで生成がめちゃ速い。

ここではStepFun自身が出しているQ4_K_SをMac Studio 512GBで試しています。

llama.cppではb7964でサポートされていますが、LM Studioのllama.cppはb7950なので、llama.cppを直接使って試しています。
https://github.com/ggml-org/llama.cpp/pull/19283

ローカルでも53tok/secです。

コードは書けるけど問題特定が恐ろしく下手、という感じ。
Thinkingを観察して、見当違いの思考をしている場合には止めてやりなおさせる必要がありました。
けど、思考自体の筋はいいです。日本語で思考するし、どういう考え方で答えにたどりつくかのヒントになりそうなくらい。
コードの生成はまかせて、不具合は自分も協力してみつける、みたいな使い方ならかなりよさそう。

ブロック崩し

とりあえずJavaのSwingでブロック崩し

たまに簡体字が混じるのが気になる。

それより、すぐゲームオーバーになっていたのを報告すると、「原因はブロックとの衝突判定」というちょっと筋違いな思考をしています。

思考の内容を確認して変な方向に行ってたら止める、ということが必要でした。

一旦問題が解消したあと、ブロックの位置調整やグラデーション、パーティクルなど追加の要件には的確に対応していた。
不具合が出なければ使えますね。

指示が通じず不具合の特定が下手

HTML+JS版も作ってもらいましたがそうすると、最初は横方向だけの移動に。

ブロックに到達しないといってるのに衝突判定のロジックに問題がある可能性を考えています。

結局、この問題のために5分考えています。

また、修正点のみを出してきたので「完全なコードを出して」というと、「問題の原因は~」と考え始めています。

日本語での指示解釈や思考が苦手という面があるかもしれないけど、それにしても指示の解釈やバグを見つけるのが下手すぎると感じました。

Roo CodeでのSpring Boot TODO管理

Roo CodeでSpring BootのTODO管理を作ってもらいました。
タグが露出してるけど、なんとなく動いてます。

追加編集画面でのThymeleafのミスがありつつ、なんとか修正して完成。

初期画面のTODO一覧までは一発で動いていたので、実装力自体はありそうです。

小説

小説を作ってもらいます。プロットと冒頭部、ということになってしまった。

中国語が混じったり変な言葉遣いもなく、自然な日本語を出していました。

日本知識

功名寺は存在しないと思う。「とっとっと」は福岡だ。 けど、案外よさそう。

思考が筋がよかった

難しい問題

ちゃんと解けてる!

年齢の制約があるものは思考の早い段階でたどりついてました。

詰んだりしてる。思考は素直でかわいい。

思考過程を追うと、なんか勉強になる気がします。

要約

注文の多い料理店」の要約。プロンプト読み込みに10秒。Qwen3-Coder-Nextの4秒には負けるけど、結構速い。
内容も要点をおさえてしっかりしています。

これも思考過程がいいです。

まとめ

生成が速く思考過程がいいのだけど、コードの不具合みつけるのが下手なのは気になる。