Qwen3-TTSというテキストto音声モデルが出ていて、どうせ日本語はしゃべれんのだろう?って思ってたけど案外しゃべれるし、自分の音声のクローンもできるようなので、試してみました。
Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!
手順などはGitHubに。
https://github.com/QwenLM/Qwen3-TTS
基本的にはpip installするだけ
pip install -U qwen-tts
flash-attnを入れたほうがいいということだけど、Windowsなのであきらめます。
pip install -U flash-attn --no-build-isolation
デモがあるので起動。デフォルトではflash-attnを使うようになってるので、使わないようにする。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8800 --no-flash-attn
話者を選べるけど、Ono Annaが日本語ネイティブ。

おぉ、Qwen-TTS、ちゃんと日本語が話せる pic.twitter.com/PYlLU6FIjd
— きしだൠ(K1S) (@kis) 2026年1月22日
Eric(四川訛りの中国語)やSohee(韓国語)をえらぶと、それっぽい訛りの日本語になる。RyanやAidenは英語ネイティブということだけど、割と自然な日本語になってた。
Baseモデルを選ぶと、音声クローンがつくれる。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8800 --no-flash-attn
UIも変わって、リファレンス音声とその書き起こしを指定するようになっている。

自分の声なんだけど、こんなハキハキとはしゃべれないな。
Qwen-TTS Demo、Baseモデルを読み込ませるとリファレンス音声をアップロードするようにUIが変わるのだな。
— きしだൠ(K1S) (@kis) 2026年1月23日
そして、声は自分なんだけど、こんなハキハキとは しゃべれんぞ、ってなってる。 pic.twitter.com/EptVkg65p1
VoiceDesignモデルを選ぶと、声質を指定できるみたい。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8800 --no-flash-attn
UIも変わる。

female voiceを指定するとアニメ声になった。
desinは指示をあたえて声質の調整ができるらしい?
— きしだൠ(K1S) (@kis) 2026年1月23日
female voiceってやったらアニメ声になった。 pic.twitter.com/EBoORl2pCJ


































