Skip to content

Commit 05daa33

Browse files
hiroki-abe-58jasagiri
authored andcommitted
fix: README encoding issue
1 parent 05705b4 commit 05daa33

1 file changed

Lines changed: 105 additions & 35 deletions

File tree

README.md

Lines changed: 105 additions & 35 deletions
Original file line numberDiff line numberDiff line change
@@ -1,62 +1,132 @@
1-
# CosyVoice-JP
1+
# CosyVoice-JP
2+
3+
CosyVoice3 の日本語対応フォーク版 - Windows ネイティブ対応 + Whisper 自動文字起こし統合
24

3-
CosyVoice3 縺ョ譌・譛ャ隱槫ッセ蠢懊ヵ繧ゥ繝シ繧ッ迚・- Windows 繝阪う繝・ぅ繝門ッセ蠢・+ Whisper 閾ェ蜍墓枚蟄苓オキ縺薙@邨ア蜷・
45
![CosyVoice-JP GUI](./asset/CosyVoiceJP-GUI.png)
56

6-
## 迚ケ蠕エ
7+
## 特徴
78

8-
- **GUI螳悟・譌・譛ャ隱槫喧**: 縺吶∋縺ヲ縺ョUI隕∫エ繧呈律譛ャ隱槭↓鄙サ險ウ
9-
- **Whisper閾ェ蜍墓枚蟄苓オキ縺薙@**: 繝励Ο繝ウ繝励ヨ髻ウ螢ー縺ョ蜀・ョケ繧定・蜍輔〒繝・く繧ケ繝亥喧
10-
- **Windows繝阪う繝・ぅ繝門ッセ蠢・*: DLL繝ュ繝シ繝牙撫鬘後€》orchcodec蝠城。後r隗」豎コ
11-
- **繝ッ繝ウ繧ッ繝ェ繝・け襍キ蜍・*: run.bat 繧偵ム繝悶Ν繧ッ繝ェ繝・け縺吶k縺縺代〒襍キ蜍・- **閾ェ蜍輔・繝シ繝磯∈謚・*: 菴ソ逕ィ荳ュ縺ョ繝昴・繝医r閾ェ蜍募屓驕ソ
9+
- **GUI完全日本語化**: すべてのUI要素を日本語に翻訳
10+
- **Whisper自動文字起こし**: プロンプト音声の内容を自動でテキスト化
11+
- **Windowsネイティブ対応**: DLLロード問題、torchcodec問題を解決
12+
- **ワンクリック起動**: `run.bat` をダブルクリックするだけで起動
13+
- **自動ポート選択**: 使用中のポートを自動回避
1214

13-
## 蜈・Μ繝昴ず繝医Μ縺九i縺ョ螟画峩轤ケ
15+
## 元リポジトリからの変更点
1416

15-
| 繝輔ぃ繧、繝ォ | 螟画峩蜀・ョケ |
17+
| ファイル | 変更内容 |
1618
|----------|----------|
17-
| webui.py | GUI譌・譛ャ隱槫喧縲仝hisper邨ア蜷医€仝indows莠呈鋤諤ァ菫ョ豁」 |
18-
| launcher.py | 閾ェ蜍輔・繝シ繝磯∈謚槭€√ヶ繝ゥ繧ヲ繧カ閾ェ蜍戊オキ蜍包シ域眠隕擾シ・|
19-
| run.bat | 繝ッ繝ウ繧ッ繝ェ繝・け襍キ蜍輔せ繧ッ繝ェ繝励ヨ・域眠隕擾シ・|
20-
| cosyvoice/utils/file_utils.py | torchcodec蝠城。後・蝗樣∩繝代ャ繝・|
21-
22-
## 蜍穂ス懃腸蠅・
23-
- OS: Windows 10/11
24-
- GPU: NVIDIA GPU・・UDA蟇セ蠢懶シ・- Python: 3.10
25-
- 迚ケ險・ RTX 5090 蟇セ蠢懶シ・yTorch nightly cu128・・
26-
## 繧、繝ウ繧ケ繝医・繝ォ謇矩・
27-
### 1. 繝ェ繝昴ず繝医Μ縺ョ繧ッ繝ュ繝シ繝ウ
19+
| `webui.py` | GUI日本語化、Whisper統合、Windows互換性修正 |
20+
| `launcher.py` | 自動ポート選択、ブラウザ自動起動(新規) |
21+
| `run.bat` | ワンクリック起動スクリプト(新規) |
22+
| `cosyvoice/utils/file_utils.py` | torchcodec問題の回避パッチ |
23+
24+
## 動作環境
25+
26+
- **OS**: Windows 10/11
27+
- **GPU**: NVIDIA GPU(CUDA対応)
28+
- **Python**: 3.10
29+
- **特記**: RTX 5090 対応(PyTorch nightly cu128)
2830

31+
## インストール手順
32+
33+
### 1. リポジトリのクローン
34+
35+
```bash
2936
git clone --recursive https://github.com/hiroki-abe-58/CosyVoice-JP.git
3037
cd CosyVoice-JP
3138
git submodule update --init --recursive
39+
```
3240

33-
### 2. Conda迺ー蠅・・菴懈・
41+
### 2. Conda環境の作成
3442

43+
```bash
3544
conda create -n cosyvoice3 python=3.10 -y
3645
conda activate cosyvoice3
46+
```
47+
48+
### 3. 依存関係のインストール
3749

38-
### 3. 萓晏ュ倬未菫ゅ・繧、繝ウ繧ケ繝医・繝ォ
50+
```bash
51+
# PyTorch(CUDA 12.8対応、RTX 5090の場合はnightly必須)
52+
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
3953

40-
# PyTorch・・UDA 12.8蟇セ蠢懶シ・pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
54+
# その他の依存関係
55+
pip install -r requirements.txt
4156

42-
# 縺昴・莉・pip install -r requirements.txt
43-
pip install openai-whisper soundfile
57+
# Whisper(自動文字起こし用)
58+
pip install openai-whisper
59+
60+
# Windows互換性のための追加パッケージ
61+
pip install soundfile
4462
pip install "ruamel.yaml>=0.15.0,<0.18.0"
63+
```
64+
65+
### 4. モデルのダウンロード
4566

46-
### 4. 繝「繝・Ν縺ョ繝€繧ヲ繝ウ繝ュ繝シ繝・
67+
```python
4768
from huggingface_hub import snapshot_download
4869
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512',
4970
local_dir='pretrained_models/Fun-CosyVoice3-0.5B-2512')
71+
```
72+
73+
### 5. 起動
74+
75+
`run.bat` をダブルクリック、またはコマンドラインから:
76+
77+
```bash
78+
conda activate cosyvoice3
79+
python launcher.py
80+
```
81+
82+
## 使い方
83+
84+
### 3秒ボイスクローン
85+
1. プロンプト音声をアップロードまたは録音
86+
2. 「自動文字起こし」ボタンでテキストを取得
87+
3. 合成テキストを入力
88+
4. 「音声を生成」をクリック
89+
90+
### 多言語クローン
91+
1. プロンプト音声をアップロード(例:英語)
92+
2. 合成テキストを別の言語で入力(例:日本語)
93+
3. 「音声を生成」をクリック
94+
95+
### 自然言語制御
96+
1. プロンプト音声をアップロード
97+
2. 指示テキストを入力(例:「優しく話して」「早口で」)
98+
3. 「音声を生成」をクリック
99+
100+
## ライセンス
101+
102+
- **CosyVoice**: Apache License 2.0 (c) Alibaba Inc
103+
- **Whisper**: MIT License (c) OpenAI
104+
- **Matcha-TTS**: MIT License
105+
106+
本フォーク版も Apache License 2.0 に従います。
107+
108+
## 免責事項
109+
110+
- 本ソフトウェアは「現状のまま」提供され、明示または黙示を問わず、いかなる種類の保証もありません
111+
- 音声クローン技術の悪用(なりすまし、詐欺、名誉毀損等)は固く禁じます
112+
- 生成された音声の利用については、利用者自身の責任において行ってください
113+
- 本ソフトウェアの使用により生じたいかなる損害についても、開発者は責任を負いません
114+
- 各国・地域の法令を遵守してご利用ください
50115

51-
### 5. 襍キ蜍・
52-
run.bat 繧偵ム繝悶Ν繧ッ繝ェ繝・け
116+
## 謝辞
53117

54-
## 繝ゥ繧、繧サ繝ウ繧ケ
118+
- 元リポジトリ: [FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice)
119+
- Alibaba FunAudioLLM チームの素晴らしい研究に感謝します
120+
- [OpenAI Whisper](https://github.com/openai/whisper)
121+
- [Matcha-TTS](https://github.com/shivammehta25/Matcha-TTS)
55122

56-
- CosyVoice: Apache License 2.0 (c) Alibaba Inc
57-
- Whisper: MIT License (c) OpenAI
123+
## 引用
58124

59-
## 蜈崎イャ莠矩・
60-
譛ャ繧ス繝輔ヨ繧ヲ繧ァ繧「縺ッ縲檎樟迥カ縺ョ縺セ縺セ縲肴署萓帙&繧後∪縺吶€る浹螢ー繧ッ繝ュ繝シ繝ウ謚€陦薙・謔ェ逕ィ縺ッ蝗コ縺冗ヲ√§縺セ縺吶€・逕滓・縺輔l縺滄浹螢ー縺ョ蛻ゥ逕ィ縺ッ蛻ゥ逕ィ閠・・霄ォ縺ョ雋ャ莉サ縺ォ縺翫>縺ヲ陦後▲縺ヲ縺上□縺輔>縲・
61-
## 隰晁セ・
62-
蜈・Μ繝昴ず繝医Μ: https://github.com/FunAudioLLM/CosyVoice
125+
```bibtex
126+
@article{du2025cosyvoice,
127+
title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training},
128+
author={Du, Zhihao and others},
129+
journal={arXiv preprint arXiv:2505.17589},
130+
year={2025}
131+
}
132+
```

0 commit comments

Comments
 (0)