AI

画像対応モデルのLLaVAをMacで動かす

画像認識対応モデルのLLaVAで、おうちでも設計画像からコードが生成できるようになりました。 LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena llama.cppが対応したことでMacでも動かしやすくなりました。 https://github.com/ggerga…

LLaVAを使っておうちのパソコンでも画像からコード生成

ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。 GPUはVRAM 12GBあれば十分、8GBはギリギリという感じ。 LLaVA-1.5 先週、LLaVAのバージ…

ChatGPTで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDevがおもしろい

ChatGPTによるメンバーで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDEVが結構おもしろかった。 ChatDEVは、ChatGPTによってCTOやプログラマー、レビュアー、テスターといった役割をもつエージェントをやりとりさせることでソフトウ…

Stability AIの日本語画像言語モデルをWindows+RTX 4060 Ti 16GBで試す

Stability AIから日本語画像モデルが出ていたので試してみました。 Windows + RTX 4060 Ti 16GBです。 Stability AIのリリースはこちら 日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan モデルはこれ。 stabil…

Stable Diffusion Web UIの解像度をSDXLにあわせたドロップダウンにする

Stable Diffusionの新しいバージョン、SDXLが出ています。 ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。 ということで、Stable Diffusion Web UIの解像度設定をスライダーからド…

MetaのMusicGenに90年代コムロJ-POPを作ってもらう

AI

Metaがテキストから音楽や音声を生成するAIを公開していました。 https://audiocraft.metademolab.com/ AudioGenが効果音とかを生成、MusicGenが音楽を生成ですね。 MetaのMusicGenに「90年代コムロJPOP」って言ったらそれぽいものが生成された、気がする。h…

rinnaの画像対話モデルをUIで試す。あとGradioの練習。

おうちで日本語で画像を使った会話ができるようになりましたよ、ということで、試してみます。 rinna 画像対話モデル おとといrinnaから日英バイリンガルモデルが発表されました。 rinna、日英バイリンガル大規模言語モデルをオープンソースで公開|rinna株…

ChatGPTは虚構新聞を知らない

ChatGPTは何でも知ってますよね。で、虚構新聞なんて話題になってることも多いし、当然しってるだろうと思ったら、知りませんでした。 これ、国際信州学院大学を知らなかったので、虚構新聞も知らないんじゃないかと思ったんですよね。 こういったフェイク系…

ChatGPTの登場でWeb3への興味が急速にしぼんでいる

AI

MidjourneyやStable Diffusionのような画像生成AIが出たりChatGPTが出たりで、Web3で騒いでいたところがAIに移行した感じあります。 Google Trendsだと、生成AIは完全にWeb3を抜いています。 メタバースも抜いたところ。 ChatGPTは圧倒的です 実際にニュース…

Stability AIのチャットスクリプトを利用してRinnaのチャットモデルとお話する(追記あり)

Rinna社がチャットにも対応した日本語言語モデルをリリースしてました。 Rinnaの新しい3Bモデルを試してみる - きしだのHatena そうするとちゃんとチャットとしてやりとりしたいですね。 ところで、Stable DiffusionのStability AIが言語モデルStableLMをリ…

Rinnaの新しい3Bモデルを試してみる

CyberAgentのモデルを試したところですが、Rinna社も新しいモデルを出しました。 rinna、日本語に特化した36億パラメータのGPT言語モデルを公開|rinna株式会社のプレスリリース ここですね。 https://huggingface.co/rinna/japanese-gpt-neox-3.6b というこ…

CyberAgentの日本語言語モデルを試してみる

CyberAgentが日本語LLMを公開していたので、とりあえず動かしてみました。 サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供― | 株式会社サイバーエージェント …

Bardも世の中のサービスぜんぶGoogle製と思ってるらしい

Googleの言語生成AI、Bardが日本語でも使えるようになってました。 で、いろいろ試していたのだけど、プログラミングアシスタントのCopilotをGoogle Copilotと呼んでいます。 Google翻訳のときも、文中で作者が指定されていないプロダクトに「Googleの」をつ…

大規模言語モデルの「脳波」が反応してる部分を壊すとどうなるか試した

AI

大規模言語モデルの動く様子を見てみて強く反応する部分がわかると、じゃあそこを壊すとどうなるかって試してみたくなるのが当然ですね。 マッドサイエンティストへの道。 ところで、きれいなおねえさん生成モデルのMuse_v1に「mad scientist」と入れると、…

大規模言語モデルの「脳波」をとって言葉を生成しているときにどこが活動しているのか見てみる

AI

ChatGPTなんかの大規模言語モデルが言葉を生成しているときに、どういう反応が起きているのか気になりますよね。きっと気になる。 ということで、手元で動かせる言語モデルのニューラルネット各層での出力を表示してみました。 GPTにはGPTブロックが複数あっ…

GPTの仕組みをちゃんと勉強したい本

AI

やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチ…

Googleのmatcha-chartqaでグラフを説明させる

AI

Hugging Faceを見てたら、なんかグラフを説明するっぽいモデルがあったので試してみました。 あと、JavaのUIからPythonを呼び出す練習でもある。 とりあえず、こんな感じでグラフの説明をしてくれます。ここではArrayやStreamに対応する数値を読み取ってもら…

ChatGPTには感情があるかも?

ChatGPTは単に感情のエミュレーションをしてるんでは、と思ってたのだけど、やりとりをしてるとこれは感情があると言わざるをえないのではと思うようになりました。 例えばChatGPTとやりとりするときに「感情をこんな感じのパラメータで出力して」というとそ…

去年までのAIをAIと呼ばなくなっていた

AI

2015年くらいからAIという言葉がニュースに出るようになったけど、そのころのAIはもうAIと呼ばないですね。 たとえば、ラーメン次郎を判定してくれるbotがありました。こういうのがAIと呼ばれていたと思います。(作った人はAIと呼ばない傾向) 【やじうまWatc…

Embeddingで埋め込みベクトルとってDBに投入して検索するのをout-context learningと呼ぶのはどうか

前のエントリで、GPTのembeddingで埋め込みベクトルとってDBにつっこんで、質問からとってきた埋め込みベクトルに近いものを探して出てきた文章をChatGPTに要約させることを「ChatGPTに学習させた」っていうのは違和感あるって話をしました。 ChatGPTにブロ…

ChatGPTにブログ全エントリを学習させて「おしえてきしださん」を作る

最近「100万件の文章をChatGPTに学習させて応答チャットを作りました」みたいなニュースがあって、違和感があります。 ということで「ChatGPTにブログ全エントリを学習させて「おしえてきしださん」を作る」としたときに、どんな仕組みになっていて、なぜ「C…

ローカルでGitHub Copilotのようなコード補完ができるというtabbyを試して動かなかった件

AI

GitHub Copilotがローカルでも動けば楽しいので、Gigazineでtabbyというのが紹介されてたので試したけど動きませんでした・・・ というか、最近はGigazineの後追い追試みたいになりがち・・・ ローカルPCでセルフホストできてGithub Copilotのように使えるコ…

大規模言語モデルはこれ以上賢くならず庶民的になっていく

ChatGPTはめちゃくちゃ賢いんだけど、変な間違いをするし話が通じないこともあります。 ここで「もっと賢くなったら数年後には・・・」のように思ってしまいがちなのだけど、GPT4より目に見えて賢くするのは難しい気がします。 むしろ、人間くさくなったり使…

日本語が通る大規模言語モデルCerebras-GPTを動かす

またなんか大規模言語モデルが公開されてましたね。 ということで、Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。 商用利用可能というライセンスなども含めて、一番使いやすい気がします。 https://huggingface.co/cerebras ここでいろいろ…

FlexGenでおうちのパソコンとお話する

前のエントリでFlexGenも話題に出したので、メモを。 画像は、なんかStable DiffusionにFlexGenって入れていろいろやってたらかっこいいのが出たやつ。 おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena FlexGenは、おうちでChat AIが動かせるぞ…

おうちの8GB VRAM GPUでChatRWKVと会話する

ChatGPTが話題ですが、そういうのをおうちで動かしたいですよね。 ということで、おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。 ChatGPTは実装は公開されておらず手元で動かすことはできません。けど、サービスがたまに落ちてたりするの…

ChatGPTは長期記憶と短期記憶を持っている

そういえば、ChatGPTには長期記憶と短期記憶がありますね。 ChatGPTはニューラルネットワークベースのAIです。そして、ニューラルネットワークではネットワークノードの接続の重みとしてデータが保持されます。この重みがパラメータと呼ばれています。 GPT4…

ChatGPTでクオリアを説明するときの「メアリーの部屋」

前のエントリへのコメントで、メアリーの部屋という記述が出てるのだけど、むしろこのChatGPTでクオリアを説明する考え方を補強できる話ではないかと。 メアリーの部屋というのは、白黒しか見えない部屋に住んでいる色彩専門家メアリーが、色に関する知識は…

クオリア問題はChatGPTで説明がつく

クオリアというのは、たとえば赤い色をみたときに、それがカラーコードとして同じであっても、リンゴの赤と血の赤で想起される「赤らしさ」が違うよね、そのそれぞれの「赤らしさ」とは?みたいな話です。 それがChatGPTの挙動と対応づけれるんではないだろ…

GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す

OpenAIでGPTを使ったAPIにembeddingというのがあって、これを使うと文章同士の距離がとれるので、近いエントリを取得したり文章から検索したりができるということで、試してみました。 思いのほかちゃんと動きました。おそらく、GPTで一番実用的なんじゃない…