Skip to content

Commit 47daf91

Browse files
hiroki-abe-58jasagiri
authored andcommitted
docs: Emphasize Windows native support achievement
1 parent 05daa33 commit 47daf91

1 file changed

Lines changed: 84 additions & 26 deletions

File tree

README.md

Lines changed: 84 additions & 26 deletions
Original file line numberDiff line numberDiff line change
@@ -1,32 +1,74 @@
11
# CosyVoice-JP
22

3-
CosyVoice3 の日本語対応フォーク版 - Windows ネイティブ対応 + Whisper 自動文字起こし統合
3+
**CosyVoice3 の日本語対応フォーク版** - 世界初のWindowsネイティブ完全対応 + Whisper自動文字起こし統合
44

55
![CosyVoice-JP GUI](./asset/CosyVoiceJP-GUI.png)
66

7+
---
8+
9+
## Why CosyVoice-JP?
10+
11+
元のCosyVoiceは **Linux専用** として開発されており、Windowsでの動作は公式にサポートされていませんでした。
12+
本フォークは、複数のWindows固有の問題を解決し、**Windowsネイティブ環境での完全動作** を実現しました。
13+
14+
### 解決した技術的課題
15+
16+
| 問題 | 症状 | 解決策 |
17+
|------|------|--------|
18+
| **DLLロードエラー** | `OSError: Error loading c10.dll` - PyTorchのDLLが正しくロードされない | Pythonモジュールのインポート順序を最適化(torch → gradio) |
19+
| **torchcodecエラー** | `TorchCodec is required` - Windowsで未サポートのコーデックを要求 | soundfileによるフォールバック処理を実装 |
20+
| **sox依存問題** | Linux専用の音声処理ツールに依存 | 代替ライブラリで完全置換 |
21+
| **torchaudio API変更** | PyTorch nightly版でのAPI破壊的変更 | soundfileベースの互換レイヤーを実装 |
22+
23+
---
24+
725
## 特徴
826

9-
- **GUI完全日本語化**: すべてのUI要素を日本語に翻訳
10-
- **Whisper自動文字起こし**: プロンプト音声の内容を自動でテキスト化
11-
- **Windowsネイティブ対応**: DLLロード問題、torchcodec問題を解決
12-
- **ワンクリック起動**: `run.bat` をダブルクリックするだけで起動
13-
- **自動ポート選択**: 使用中のポートを自動回避
27+
### Windowsネイティブ完全対応
28+
- **Linux専用だったCosyVoiceをWindowsで動作可能に**
29+
- RTX 5090 (sm_120) などの最新GPUにも対応
30+
- PyTorch nightly (CUDA 12.8) での動作確認済み
31+
- ワンクリック起動(`run.bat`をダブルクリックするだけ)
32+
- 自動ポート選択(使用中のポートを自動回避)
33+
34+
### GUI完全日本語化
35+
- すべてのUI要素を日本語に翻訳
36+
- 操作手順も日本語で表示
37+
- エラーメッセージも日本語化
38+
39+
### Whisper自動文字起こし統合
40+
- OpenAI Whisperをボタン一つで呼び出し
41+
- プロンプト音声の内容を自動でテキスト化
42+
- 言語自動検出対応
43+
44+
### 言語選択機能
45+
- 出力言語(発音)を明示的に指定可能
46+
- 日本語、英語、中国語、韓国語など9言語対応
47+
48+
---
1449

1550
## 元リポジトリからの変更点
1651

1752
| ファイル | 変更内容 |
1853
|----------|----------|
19-
| `webui.py` | GUI日本語化、Whisper統合、Windows互換性修正 |
20-
| `launcher.py` | 自動ポート選択、ブラウザ自動起動(新規) |
21-
| `run.bat` | ワンクリック起動スクリプト(新規) |
22-
| `cosyvoice/utils/file_utils.py` | torchcodec問題の回避パッチ |
54+
| `webui.py` | GUI日本語化、Whisper統合、Windows互換性修正、言語選択機能 |
55+
| `launcher.py` | 自動ポート選択、ブラウザ自動起動(**新規作成**|
56+
| `run.bat` | ワンクリック起動スクリプト(**新規作成**|
57+
| `cosyvoice/utils/file_utils.py` | torchcodec問題の回避パッチ、soundfileフォールバック |
58+
59+
---
2360

2461
## 動作環境
2562

26-
- **OS**: Windows 10/11
27-
- **GPU**: NVIDIA GPU(CUDA対応)
28-
- **Python**: 3.10
29-
- **特記**: RTX 5090 対応(PyTorch nightly cu128)
63+
| 項目 | 要件 |
64+
|------|------|
65+
| **OS** | Windows 10/11(Linux非依存) |
66+
| **GPU** | NVIDIA GPU(CUDA対応) |
67+
| **Python** | 3.10 |
68+
| **PyTorch** | nightly版推奨(CUDA 12.8対応) |
69+
| **特記** | RTX 5090など最新GPU対応 |
70+
71+
---
3072

3173
## インストール手順
3274

@@ -72,18 +114,24 @@ snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
72114

73115
### 5. 起動
74116

75-
`run.bat` をダブルクリック、またはコマンドラインから:
117+
**ワンクリック起動:**
118+
`run.bat` をダブルクリック
76119

120+
**コマンドラインから:**
77121
```bash
78122
conda activate cosyvoice3
79123
python launcher.py
80124
```
81125

126+
ブラウザが自動で開き、`http://localhost:7865` でWebUIにアクセスできます。
127+
128+
---
129+
82130
## 使い方
83131

84-
### 3秒ボイスクローン
85-
1. プロンプト音声をアップロードまたは録音
86-
2. 「自動文字起こし」ボタンでテキストを取得
132+
### 3秒ボイスクローン(推奨)
133+
1. プロンプト音声をアップロードまたは録音(3〜30秒)
134+
2. 「自動文字起こし (Whisper)」ボタンでテキストを取得
87135
3. 合成テキストを入力
88136
4. 「音声を生成」をクリック
89137

@@ -94,38 +142,48 @@ python launcher.py
94142

95143
### 自然言語制御
96144
1. プロンプト音声をアップロード
97-
2. 指示テキストを入力(例:「優しく話して」「早口で」)
145+
2. 指示テキストを入力(例:「優しく話して」「早口で」「囁いて」
98146
3. 「音声を生成」をクリック
99147

148+
---
149+
100150
## ライセンス
101151

102-
- **CosyVoice**: Apache License 2.0 (c) Alibaba Inc
103-
- **Whisper**: MIT License (c) OpenAI
104-
- **Matcha-TTS**: MIT License
152+
| コンポーネント | ライセンス |
153+
|----------------|------------|
154+
| CosyVoice | Apache License 2.0 (c) Alibaba Inc |
155+
| Whisper | MIT License (c) OpenAI |
156+
| Matcha-TTS | MIT License |
157+
| 本フォーク | Apache License 2.0 |
105158

106-
本フォーク版も Apache License 2.0 に従います。
159+
---
107160

108161
## 免責事項
109162

110163
- 本ソフトウェアは「現状のまま」提供され、明示または黙示を問わず、いかなる種類の保証もありません
111-
- 音声クローン技術の悪用(なりすまし、詐欺、名誉毀損等)は固く禁じます
164+
- **音声クローン技術の悪用(なりすまし、詐欺、名誉毀損、ディープフェイク等)は固く禁じます**
112165
- 生成された音声の利用については、利用者自身の責任において行ってください
113166
- 本ソフトウェアの使用により生じたいかなる損害についても、開発者は責任を負いません
114167
- 各国・地域の法令を遵守してご利用ください
168+
- 他者の権利(肖像権、著作権、パブリシティ権等)を侵害しないようご注意ください
169+
170+
---
115171

116172
## 謝辞
117173

118-
- 元リポジトリ: [FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice)
174+
- **元リポジトリ**: [FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice)
119175
- Alibaba FunAudioLLM チームの素晴らしい研究に感謝します
120176
- [OpenAI Whisper](https://github.com/openai/whisper)
121177
- [Matcha-TTS](https://github.com/shivammehta25/Matcha-TTS)
122178

179+
---
180+
123181
## 引用
124182

125183
```bibtex
126184
@article{du2025cosyvoice,
127185
title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training},
128-
author={Du, Zhihao and others},
186+
author={Du, Zhihao and Gao, Changfeng and Wang, Yuxuan and others},
129187
journal={arXiv preprint arXiv:2505.17589},
130188
year={2025}
131189
}

0 commit comments

Comments
 (0)