2023-06-15から1日間の記事一覧

CTranslate2でRinnaモデルをコンバートしてCPUや8GB GPUで動くようにする

LLM

CTranslate2はTransformerモデルをCPUやGPUで効率的に動かすライブラリです。 https://github.com/OpenNMT/CTranslate2 CTranslate2の機能のひとつにモデルの量子化があります。INT8で量子化すると雑に必要メモリが半分に。そしてCPUでも動かしやすくなるの…