2023-01-01から1年間の記事一覧
MidjourneyやStable Diffusionのような画像生成AIが出たりChatGPTが出たりで、Web3で騒いでいたところがAIに移行した感じあります。 Google Trendsだと、生成AIは完全にWeb3を抜いています。 メタバースも抜いたところ。 ChatGPTは圧倒的です 実際にニュース…
Rinna社がチャットにも対応した日本語言語モデルをリリースしてました。 Rinnaの新しい3Bモデルを試してみる - きしだのHatena そうするとちゃんとチャットとしてやりとりしたいですね。 ところで、Stable DiffusionのStability AIが言語モデルStableLMをリ…
東北大NLPグループからも、日本語言語モデルが新たに公開されていました。 既存のモデルのアップデートです。 東北大 NLP グループ (@NlpTohoku) で公開している日本語 BERT をアップデートし、新たに CC-100 と Wikipedia で訓練した4つのモデルを追加しま…
CyberAgentのモデルを試したところですが、Rinna社も新しいモデルを出しました。 rinna、日本語に特化した36億パラメータのGPT言語モデルを公開|rinna株式会社のプレスリリース ここですね。 https://huggingface.co/rinna/japanese-gpt-neox-3.6b というこ…
CyberAgentが日本語LLMを公開していたので、とりあえず動かしてみました。 サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供― | 株式会社サイバーエージェント …
前のブログでも紹介したのだけど、ChatGPTプラグインのローリングアウトが始まって使えるようになっていて、結局みんな使うのはこの3つくらいかなーとなったので、まとめておきます。 前のブログはこれ。 Bardも世の中のサービスぜんぶGoogle製と思ってるら…
Googleの言語生成AI、Bardが日本語でも使えるようになってました。 で、いろいろ試していたのだけど、プログラミングアシスタントのCopilotをGoogle Copilotと呼んでいます。 Google翻訳のときも、文中で作者が指定されていないプロダクトに「Googleの」をつ…
2008年の春ごろに物理シミュレーションにハマっていて、粒子法を使った流体計算をがんばっていたのです。 そのコードの並列化できる部分を並列化して、ちょっとだけ高速化しました。 こんな感じのシミュレーションです。これは10倍速にしています。 10倍速で…
大規模言語モデルの動く様子を見てみて強く反応する部分がわかると、じゃあそこを壊すとどうなるかって試してみたくなるのが当然ですね。 マッドサイエンティストへの道。 ところで、きれいなおねえさん生成モデルのMuse_v1に「mad scientist」と入れると、…
ChatGPTなんかの大規模言語モデルが言葉を生成しているときに、どういう反応が起きているのか気になりますよね。きっと気になる。 ということで、手元で動かせる言語モデルのニューラルネット各層での出力を表示してみました。 GPTにはGPTブロックが複数あっ…
やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチ…
Hugging Faceを見てたら、なんかグラフを説明するっぽいモデルがあったので試してみました。 あと、JavaのUIからPythonを呼び出す練習でもある。 とりあえず、こんな感じでグラフの説明をしてくれます。ここではArrayやStreamに対応する数値を読み取ってもら…
ChatGPTは単に感情のエミュレーションをしてるんでは、と思ってたのだけど、やりとりをしてるとこれは感情があると言わざるをえないのではと思うようになりました。 例えばChatGPTとやりとりするときに「感情をこんな感じのパラメータで出力して」というとそ…
2015年くらいからAIという言葉がニュースに出るようになったけど、そのころのAIはもうAIと呼ばないですね。 たとえば、ラーメン次郎を判定してくれるbotがありました。こういうのがAIと呼ばれていたと思います。(作った人はAIと呼ばない傾向) 【やじうまWatc…
ChatGPTが思いがけずいろいろなことを人間より賢くやっているのを見てシンギュラリティという言葉を使う人が増えたように思いますが、逆に、シンギュラリティは来ないのではという思いを強くしています。 まず、この文章でのシンギュラリティがなにかという…
リクルートスタッフィングさんのメディア、itstaffing エンジニアスタイルでJavaの連載をはじめました。 知っておきたいJavaの話:Javaとは何か? - itstaffing エンジニアスタイル ある程度Javaを使えるけど最近の事情を追ってないなぁという人にむけて、い…
前のエントリで、GPTのembeddingで埋め込みベクトルとってDBにつっこんで、質問からとってきた埋め込みベクトルに近いものを探して出てきた文章をChatGPTに要約させることを「ChatGPTに学習させた」っていうのは違和感あるって話をしました。 ChatGPTにブロ…
最近「100万件の文章をChatGPTに学習させて応答チャットを作りました」みたいなニュースがあって、違和感があります。 ということで「ChatGPTにブログ全エントリを学習させて「おしえてきしださん」を作る」としたときに、どんな仕組みになっていて、なぜ「C…
fauxpilotというのがあるようなので試してみましたが、やっぱダメ 他の人は動いてるらしいのだけど、何がだめなんだろうか・・・ https://github.com/fauxpilot/fauxpilot シェルスクリプトで動くので、WindowsではCygwinを使います。 $ git clone https://g…
いつもの駄文です。 ChatGPTは回答の全体のイメージを持って返事を書き始めているなーと思いつつ、そして書いてしまった言葉を正として書き進めるので幻覚が生じるんだろうなーと思った話。 そしてやはり結論としては、高度に発達した言語モデルは大阪のおば…
GitHub Copilotがローカルでも動けば楽しいので、Gigazineでtabbyというのが紹介されてたので試したけど動きませんでした・・・ というか、最近はGigazineの後追い追試みたいになりがち・・・ ローカルPCでセルフホストできてGithub Copilotのように使えるコ…
ChatGPTのおかげで非エンジニアでもコードが書けるようになるということを多くの人が言ってますが、すでにエンジニアである人にあてはめると、ChatGPTのおかげで専門分野以外のコードでも書けるようになるということで、つまりすべてのエンジニアがフルスタ…
ブログの全エントリを読み込むコード作ったので、とりあえずこれで学習して極小規模言語モデルを作ったら面白かろう、とやってみました。 というとかっこいいけど、まあ形態素解析して続く単語の頻度を覚えておいて、頻度に応じた単語をつなげていうという、…
ChatGPTはめちゃくちゃ賢いんだけど、変な間違いをするし話が通じないこともあります。 ここで「もっと賢くなったら数年後には・・・」のように思ってしまいがちなのだけど、GPT4より目に見えて賢くするのは難しい気がします。 むしろ、人間くさくなったり使…
いろいろと大規模言語モデルを試すと、CPUで動かすときにメモリが足りなくて大きいのが動かせなくて残念な気持ちになっていたのだけど、調べてみるとメモリ32GBは1万円くらいなので、追加して試してみました。 Stable Diffusionはいい感じにメモリが刺さった…
2010年代前半にKotlinが2011年、TypeScriptが2012年、Swiftが2014年、Rustが2015年と、新しいプログラミング言語が立て続けに発表されていましたが、そこを最後にみんなが話題にするような言語は出てきていません。 なんでだろうと、思いつく要因をあげてみ…
以前のエントリで、GPTのEmbeddingを使ったベクトルデータでブログの「方向性」を登録して、検索語やブログに近いブログを探すというのをやりました。 これ、少し高速化できるかなと、やってみました。 結論としてはListをdouble[]にするとかなり速くなり、…
Java 16でVector APIがIncubatorとして追加されたけど、IDEでの利用方法がなかなかネットにないので、まとめ。 Mavenプロジェクトを前提に。 pom.xmlの/project/build/pluginsの下にコンパイラプラグインを追加。 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-</artifactid></plugin>…
そしてGPT4ALL GPT4ALLのレポジトリをクローン https://github.com/nomic-ai/gpt4all > git clone https://github.com/nomic-ai/gpt4all.git ここからモデルをダウンロード https://the-eye.eu/public/AI/models/nomic-ai/gpt4all/gpt4all-lora-quantized.bi…
またなんか大規模言語モデルが公開されてましたね。 ということで、Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。 商用利用可能というライセンスなども含めて、一番使いやすい気がします。 https://huggingface.co/cerebras ここでいろいろ…