Qwen3-TTSというテキストto音声モデルが出ていて、どうせ日本語はしゃべれんのだろう?って思ってたけど案外しゃべれるし、自分の音声のクローンもできるようなので、試してみました。
Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!
手順などはGitHubに。
https://github.com/QwenLM/Qwen3-TTS
基本的にはpip installするだけ
pip install -U qwen-tts
GPU対応でPyTorchを使うなら--upgrade --force-reinstalを付けてインストールする必要があります。
https://pytorch.org/get-started/locally/
flash-attnを入れたほうがいいということだけど、Windowsなのであきらめ。
pip install -U flash-attn --no-build-isolation
※ 追記 次の3点を行うことでインストールできましたが、生成時間に違いはなかったのでわざわざ入れなくてもいいと思う。
- regedit で
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystemのLongPathsEnabledを1に set DISTUTILS_USE_SDK=1- Developer Command Prompt for VS2022を使う
flash_attnをWindowsにインストールするためにやったこと - きしだのHatena
あと、SoXがないよと言ってくるのでインストールしてパスを通したらエラーになりました。これもいらない。

CustomVoiceモデルで話者や話し方を指定
デモがあるので起動。デフォルトではflash-attnを使うようになってるので、使わないようにする。
macの場合は--device mpsをつける必要があります。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8800 --no-flash-attn
話者を選べるけど、Ono Annaが日本語ネイティブ。

おぉ、Qwen-TTS、ちゃんと日本語が話せる pic.twitter.com/PYlLU6FIjd
— きしだൠ(K1S) (@kis) 2026年1月22日
Eric(四川訛りの中国語)やSohee(韓国語)をえらぶと、それっぽい訛りの日本語になる。RyanやAidenは英語ネイティブということだけど、割と自然な日本語になってた。
Baseモデルで音声クローン
Baseモデルを選ぶと、音声クローンがつくれる。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8800 --no-flash-attn
UIも変わって、リファレンス音声とその書き起こしを指定するようになっている。

自分の声なんだけど、こんなハキハキとはしゃべれないな。
Qwen-TTS Demo、Baseモデルを読み込ませるとリファレンス音声をアップロードするようにUIが変わるのだな。
— きしだൠ(K1S) (@kis) 2026年1月23日
そして、声は自分なんだけど、こんなハキハキとは しゃべれんぞ、ってなってる。 pic.twitter.com/EptVkg65p1
※追記
リファレンスの音声でなるべく多くの音素が入るようにすると、もっと自然になりました。
リファレンスの音声になるべく多くの音素が入るようにしてQwen3-TTSで音声つくらせたら、圧倒的に自然にぼくのしゃべり方するようになった。 pic.twitter.com/3S2GATBdEJ
— きしだൠ(K1S) (@kis) 2026年1月24日
ここでは次の文を読み上げ。カ、サ、タ、ハ、パ行といった無声子音と長音、促音、撥音が入るようにしてます。
今日はとても晴れた日で、風は少し冷たく感じます。
朝はパンとコーヒーを用意して、ゆっくりニュースを読みました。
英語でしゃべったのをリファレンスにすると、自分よりうまく英語を話すように。
ぼく英語しゃべれるんやなw pic.twitter.com/AdeIyIz4rn
— きしだൠ(K1S) (@kis) 2026年1月24日
リファレンスはサンプルコードにあったこれ
Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you.
Voice Designモデル
VoiceDesignモデルを選ぶと、声質を指定できるみたい。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8800 --no-flash-attn
UIも変わる。

female voiceを指定するとアニメ声になった。
desinは指示をあたえて声質の調整ができるらしい?
— きしだൠ(K1S) (@kis) 2026年1月23日
female voiceってやったらアニメ声になった。 pic.twitter.com/EBoORl2pCJ
