日本語が通る大規模言語モデルCerebras-GPTを動かす

またなんか大規模言語モデルが公開されてましたね。
ということで、Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。
商用利用可能というライセンスなども含めて、一番使いやすい気がします。 https://huggingface.co/cerebras

ここでいろいろやってるようだけど、モデルを動かすスクリプトはありません。
https://github.com/Cerebras/modelzoo

なので、自分でモデルを動かすコードを書くということになるけど、VTS-Techさんがgistで公開しているスクリプトを使わせてもらいます。
https://gist.github.com/Veritas83/bb858a2039fe84cd35af4064c0aa44d8

-mでモデルサイズ、-cコマンドラインモード、-pでプロンプトを指定します。

>python VTSTech-GPT.py -m 590m -p "雨が降るときは" -c

ということだけど、-mが効いてないですが・・・。 日本語出てきますね。GPUは使わないので1.3Bや2.7Bでも動きましたが、6.7Bになると32GBメモリでは つらいようです。コードを直接いじってモデルサイズを指定しています。

追記:メモリを増やして6.7Bを動かしました。
メモリを追加して64GBになったので動かせなかった言語モデルを試した - きしだのHatena

pipelinedevice=0を追加するとGPUを使います。

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

8GB VRAMで1.3Bは動きました。2.7Bは つらいかな。

やっぱりtransformersモジュールの使い方を知っておくほうがよさそう