11# CosyVoice-JP
22
3- CosyVoice3 の日本語対応フォーク版 - Windows ネイティブ対応 + Whisper 自動文字起こし統合
3+ ** CosyVoice3 の日本語対応フォーク版** - 世界初のWindowsネイティブ完全対応 + Whisper自動文字起こし統合
44
55![ CosyVoice-JP GUI] ( ./asset/CosyVoiceJP-GUI.png )
66
7+ ---
8+
9+ ## Why CosyVoice-JP?
10+
11+ 元のCosyVoiceは ** Linux専用** として開発されており、Windowsでの動作は公式にサポートされていませんでした。
12+ 本フォークは、複数のWindows固有の問題を解決し、** Windowsネイティブ環境での完全動作** を実現しました。
13+
14+ ### 解決した技術的課題
15+
16+ | 問題 | 症状 | 解決策 |
17+ | ------| ------| --------|
18+ | ** DLLロードエラー** | ` OSError: Error loading c10.dll ` - PyTorchのDLLが正しくロードされない | Pythonモジュールのインポート順序を最適化(torch → gradio) |
19+ | ** torchcodecエラー** | ` TorchCodec is required ` - Windowsで未サポートのコーデックを要求 | soundfileによるフォールバック処理を実装 |
20+ | ** sox依存問題** | Linux専用の音声処理ツールに依存 | 代替ライブラリで完全置換 |
21+ | ** torchaudio API変更** | PyTorch nightly版でのAPI破壊的変更 | soundfileベースの互換レイヤーを実装 |
22+
23+ ---
24+
725## 特徴
826
9- - ** GUI完全日本語化** : すべてのUI要素を日本語に翻訳
10- - ** Whisper自動文字起こし** : プロンプト音声の内容を自動でテキスト化
11- - ** Windowsネイティブ対応** : DLLロード問題、torchcodec問題を解決
12- - ** ワンクリック起動** : ` run.bat ` をダブルクリックするだけで起動
13- - ** 自動ポート選択** : 使用中のポートを自動回避
27+ ### Windowsネイティブ完全対応
28+ - ** Linux専用だったCosyVoiceをWindowsで動作可能に**
29+ - RTX 5090 (sm_120) などの最新GPUにも対応
30+ - PyTorch nightly (CUDA 12.8) での動作確認済み
31+ - ワンクリック起動(` run.bat ` をダブルクリックするだけ)
32+ - 自動ポート選択(使用中のポートを自動回避)
33+
34+ ### GUI完全日本語化
35+ - すべてのUI要素を日本語に翻訳
36+ - 操作手順も日本語で表示
37+ - エラーメッセージも日本語化
38+
39+ ### Whisper自動文字起こし統合
40+ - OpenAI Whisperをボタン一つで呼び出し
41+ - プロンプト音声の内容を自動でテキスト化
42+ - 言語自動検出対応
43+
44+ ### 言語選択機能
45+ - 出力言語(発音)を明示的に指定可能
46+ - 日本語、英語、中国語、韓国語など9言語対応
47+
48+ ---
1449
1550## 元リポジトリからの変更点
1651
1752| ファイル | 変更内容 |
1853| ----------| ----------|
19- | ` webui.py ` | GUI日本語化、Whisper統合、Windows互換性修正 |
20- | ` launcher.py ` | 自動ポート選択、ブラウザ自動起動(新規) |
21- | ` run.bat ` | ワンクリック起動スクリプト(新規) |
22- | ` cosyvoice/utils/file_utils.py ` | torchcodec問題の回避パッチ |
54+ | ` webui.py ` | GUI日本語化、Whisper統合、Windows互換性修正、言語選択機能 |
55+ | ` launcher.py ` | 自動ポート選択、ブラウザ自動起動(** 新規作成** ) |
56+ | ` run.bat ` | ワンクリック起動スクリプト(** 新規作成** ) |
57+ | ` cosyvoice/utils/file_utils.py ` | torchcodec問題の回避パッチ、soundfileフォールバック |
58+
59+ ---
2360
2461## 動作環境
2562
26- - ** OS** : Windows 10/11
27- - ** GPU** : NVIDIA GPU(CUDA対応)
28- - ** Python** : 3.10
29- - ** 特記** : RTX 5090 対応(PyTorch nightly cu128)
63+ | 項目 | 要件 |
64+ | ------| ------|
65+ | ** OS** | Windows 10/11(Linux非依存) |
66+ | ** GPU** | NVIDIA GPU(CUDA対応) |
67+ | ** Python** | 3.10 |
68+ | ** PyTorch** | nightly版推奨(CUDA 12.8対応) |
69+ | ** 特記** | RTX 5090など最新GPU対応 |
70+
71+ ---
3072
3173## インストール手順
3274
@@ -72,18 +114,24 @@ snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
72114
73115### 5. 起動
74116
75- ` run.bat ` をダブルクリック、またはコマンドラインから:
117+ ** ワンクリック起動:**
118+ ` run.bat ` をダブルクリック
76119
120+ ** コマンドラインから:**
77121``` bash
78122conda activate cosyvoice3
79123python launcher.py
80124```
81125
126+ ブラウザが自動で開き、` http://localhost:7865 ` でWebUIにアクセスできます。
127+
128+ ---
129+
82130## 使い方
83131
84- ### 3秒ボイスクローン
85- 1 . プロンプト音声をアップロードまたは録音
86- 2 . 「自動文字起こし」ボタンでテキストを取得
132+ ### 3秒ボイスクローン(推奨)
133+ 1 . プロンプト音声をアップロードまたは録音(3〜30秒)
134+ 2 . 「自動文字起こし (Whisper) 」ボタンでテキストを取得
871353 . 合成テキストを入力
881364 . 「音声を生成」をクリック
89137
@@ -94,38 +142,48 @@ python launcher.py
94142
95143### 自然言語制御
961441 . プロンプト音声をアップロード
97- 2 . 指示テキストを入力(例:「優しく話して」「早口で」)
145+ 2 . 指示テキストを入力(例:「優しく話して」「早口で」「囁いて」 )
981463 . 「音声を生成」をクリック
99147
148+ ---
149+
100150## ライセンス
101151
102- - ** CosyVoice** : Apache License 2.0 (c) Alibaba Inc
103- - ** Whisper** : MIT License (c) OpenAI
104- - ** Matcha-TTS** : MIT License
152+ | コンポーネント | ライセンス |
153+ | ----------------| ------------|
154+ | CosyVoice | Apache License 2.0 (c) Alibaba Inc |
155+ | Whisper | MIT License (c) OpenAI |
156+ | Matcha-TTS | MIT License |
157+ | 本フォーク | Apache License 2.0 |
105158
106- 本フォーク版も Apache License 2.0 に従います。
159+ ---
107160
108161## 免責事項
109162
110163- 本ソフトウェアは「現状のまま」提供され、明示または黙示を問わず、いかなる種類の保証もありません
111- - 音声クローン技術の悪用(なりすまし、詐欺、名誉毀損等 )は固く禁じます
164+ - ** 音声クローン技術の悪用(なりすまし、詐欺、名誉毀損、ディープフェイク等 )は固く禁じます**
112165- 生成された音声の利用については、利用者自身の責任において行ってください
113166- 本ソフトウェアの使用により生じたいかなる損害についても、開発者は責任を負いません
114167- 各国・地域の法令を遵守してご利用ください
168+ - 他者の権利(肖像権、著作権、パブリシティ権等)を侵害しないようご注意ください
169+
170+ ---
115171
116172## 謝辞
117173
118- - 元リポジトリ: [ FunAudioLLM/CosyVoice] ( https://github.com/FunAudioLLM/CosyVoice )
174+ - ** 元リポジトリ** : [ FunAudioLLM/CosyVoice] ( https://github.com/FunAudioLLM/CosyVoice )
119175- Alibaba FunAudioLLM チームの素晴らしい研究に感謝します
120176- [ OpenAI Whisper] ( https://github.com/openai/whisper )
121177- [ Matcha-TTS] ( https://github.com/shivammehta25/Matcha-TTS )
122178
179+ ---
180+
123181## 引用
124182
125183``` bibtex
126184@article{du2025cosyvoice,
127185 title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training},
128- author={Du, Zhihao and others},
186+ author={Du, Zhihao and Gao, Changfeng and Wang, Yuxuan and others},
129187 journal={arXiv preprint arXiv:2505.17589},
130188 year={2025}
131189}
0 commit comments