|
1 | | -# CosyVoice-JP |
| 1 | +# CosyVoice-JP |
| 2 | + |
| 3 | +CosyVoice3 の日本語対応フォーク版 - Windows ネイティブ対応 + Whisper 自動文字起こし統合 |
2 | 4 |
|
3 | | -CosyVoice3 縺ョ譌・譛ャ隱槫ッセ蠢懊ヵ繧ゥ繝シ繧ッ迚・- Windows 繝阪う繝・ぅ繝門ッセ蠢・+ Whisper 閾ェ蜍墓枚蟄苓オキ縺薙@邨ア蜷・ |
4 | 5 |  |
5 | 6 |
|
6 | | -## 迚ケ蠕エ |
| 7 | +## 特徴 |
7 | 8 |
|
8 | | -- **GUI螳悟・譌・譛ャ隱槫喧**: 縺吶∋縺ヲ縺ョUI隕∫エ繧呈律譛ャ隱槭↓鄙サ險ウ |
9 | | -- **Whisper閾ェ蜍墓枚蟄苓オキ縺薙@**: 繝励Ο繝ウ繝励ヨ髻ウ螢ー縺ョ蜀・ョケ繧定・蜍輔〒繝・く繧ケ繝亥喧 |
10 | | -- **Windows繝阪う繝・ぅ繝門ッセ蠢・*: DLL繝ュ繝シ繝牙撫鬘後》orchcodec蝠城。後r隗」豎コ |
11 | | -- **繝ッ繝ウ繧ッ繝ェ繝・け襍キ蜍・*: run.bat 繧偵ム繝悶Ν繧ッ繝ェ繝・け縺吶k縺縺代〒襍キ蜍・- **閾ェ蜍輔・繝シ繝磯∈謚・*: 菴ソ逕ィ荳ュ縺ョ繝昴・繝医r閾ェ蜍募屓驕ソ |
| 9 | +- **GUI完全日本語化**: すべてのUI要素を日本語に翻訳 |
| 10 | +- **Whisper自動文字起こし**: プロンプト音声の内容を自動でテキスト化 |
| 11 | +- **Windowsネイティブ対応**: DLLロード問題、torchcodec問題を解決 |
| 12 | +- **ワンクリック起動**: `run.bat` をダブルクリックするだけで起動 |
| 13 | +- **自動ポート選択**: 使用中のポートを自動回避 |
12 | 14 |
|
13 | | -## 蜈・Μ繝昴ず繝医Μ縺九i縺ョ螟画峩轤ケ |
| 15 | +## 元リポジトリからの変更点 |
14 | 16 |
|
15 | | -| 繝輔ぃ繧、繝ォ | 螟画峩蜀・ョケ | |
| 17 | +| ファイル | 変更内容 | |
16 | 18 | |----------|----------| |
17 | | -| webui.py | GUI譌・譛ャ隱槫喧縲仝hisper邨ア蜷医仝indows莠呈鋤諤ァ菫ョ豁」 | |
18 | | -| launcher.py | 閾ェ蜍輔・繝シ繝磯∈謚槭√ヶ繝ゥ繧ヲ繧カ閾ェ蜍戊オキ蜍包シ域眠隕擾シ・| |
19 | | -| run.bat | 繝ッ繝ウ繧ッ繝ェ繝・け襍キ蜍輔せ繧ッ繝ェ繝励ヨ・域眠隕擾シ・| |
20 | | -| cosyvoice/utils/file_utils.py | torchcodec蝠城。後・蝗樣∩繝代ャ繝・| |
21 | | - |
22 | | -## 蜍穂ス懃腸蠅・ |
23 | | -- OS: Windows 10/11 |
24 | | -- GPU: NVIDIA GPU・・UDA蟇セ蠢懶シ・- Python: 3.10 |
25 | | -- 迚ケ險・ RTX 5090 蟇セ蠢懶シ・yTorch nightly cu128・・ |
26 | | -## 繧、繝ウ繧ケ繝医・繝ォ謇矩・ |
27 | | -### 1. 繝ェ繝昴ず繝医Μ縺ョ繧ッ繝ュ繝シ繝ウ |
| 19 | +| `webui.py` | GUI日本語化、Whisper統合、Windows互換性修正 | |
| 20 | +| `launcher.py` | 自動ポート選択、ブラウザ自動起動(新規) | |
| 21 | +| `run.bat` | ワンクリック起動スクリプト(新規) | |
| 22 | +| `cosyvoice/utils/file_utils.py` | torchcodec問題の回避パッチ | |
| 23 | + |
| 24 | +## 動作環境 |
| 25 | + |
| 26 | +- **OS**: Windows 10/11 |
| 27 | +- **GPU**: NVIDIA GPU(CUDA対応) |
| 28 | +- **Python**: 3.10 |
| 29 | +- **特記**: RTX 5090 対応(PyTorch nightly cu128) |
28 | 30 |
|
| 31 | +## インストール手順 |
| 32 | + |
| 33 | +### 1. リポジトリのクローン |
| 34 | + |
| 35 | +```bash |
29 | 36 | git clone --recursive https://github.com/hiroki-abe-58/CosyVoice-JP.git |
30 | 37 | cd CosyVoice-JP |
31 | 38 | git submodule update --init --recursive |
| 39 | +``` |
32 | 40 |
|
33 | | -### 2. Conda迺ー蠅・・菴懈・ |
| 41 | +### 2. Conda環境の作成 |
34 | 42 |
|
| 43 | +```bash |
35 | 44 | conda create -n cosyvoice3 python=3.10 -y |
36 | 45 | conda activate cosyvoice3 |
| 46 | +``` |
| 47 | + |
| 48 | +### 3. 依存関係のインストール |
37 | 49 |
|
38 | | -### 3. 萓晏ュ倬未菫ゅ・繧、繝ウ繧ケ繝医・繝ォ |
| 50 | +```bash |
| 51 | +# PyTorch(CUDA 12.8対応、RTX 5090の場合はnightly必須) |
| 52 | +pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128 |
39 | 53 |
|
40 | | -# PyTorch・・UDA 12.8蟇セ蠢懶シ・pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128 |
| 54 | +# その他の依存関係 |
| 55 | +pip install -r requirements.txt |
41 | 56 |
|
42 | | -# 縺昴・莉・pip install -r requirements.txt |
43 | | -pip install openai-whisper soundfile |
| 57 | +# Whisper(自動文字起こし用) |
| 58 | +pip install openai-whisper |
| 59 | + |
| 60 | +# Windows互換性のための追加パッケージ |
| 61 | +pip install soundfile |
44 | 62 | pip install "ruamel.yaml>=0.15.0,<0.18.0" |
| 63 | +``` |
| 64 | + |
| 65 | +### 4. モデルのダウンロード |
45 | 66 |
|
46 | | -### 4. 繝「繝・Ν縺ョ繝繧ヲ繝ウ繝ュ繝シ繝・ |
| 67 | +```python |
47 | 68 | from huggingface_hub import snapshot_download |
48 | 69 | snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', |
49 | 70 | local_dir='pretrained_models/Fun-CosyVoice3-0.5B-2512') |
| 71 | +``` |
| 72 | + |
| 73 | +### 5. 起動 |
| 74 | + |
| 75 | +`run.bat` をダブルクリック、またはコマンドラインから: |
| 76 | + |
| 77 | +```bash |
| 78 | +conda activate cosyvoice3 |
| 79 | +python launcher.py |
| 80 | +``` |
| 81 | + |
| 82 | +## 使い方 |
| 83 | + |
| 84 | +### 3秒ボイスクローン |
| 85 | +1. プロンプト音声をアップロードまたは録音 |
| 86 | +2. 「自動文字起こし」ボタンでテキストを取得 |
| 87 | +3. 合成テキストを入力 |
| 88 | +4. 「音声を生成」をクリック |
| 89 | + |
| 90 | +### 多言語クローン |
| 91 | +1. プロンプト音声をアップロード(例:英語) |
| 92 | +2. 合成テキストを別の言語で入力(例:日本語) |
| 93 | +3. 「音声を生成」をクリック |
| 94 | + |
| 95 | +### 自然言語制御 |
| 96 | +1. プロンプト音声をアップロード |
| 97 | +2. 指示テキストを入力(例:「優しく話して」「早口で」) |
| 98 | +3. 「音声を生成」をクリック |
| 99 | + |
| 100 | +## ライセンス |
| 101 | + |
| 102 | +- **CosyVoice**: Apache License 2.0 (c) Alibaba Inc |
| 103 | +- **Whisper**: MIT License (c) OpenAI |
| 104 | +- **Matcha-TTS**: MIT License |
| 105 | + |
| 106 | +本フォーク版も Apache License 2.0 に従います。 |
| 107 | + |
| 108 | +## 免責事項 |
| 109 | + |
| 110 | +- 本ソフトウェアは「現状のまま」提供され、明示または黙示を問わず、いかなる種類の保証もありません |
| 111 | +- 音声クローン技術の悪用(なりすまし、詐欺、名誉毀損等)は固く禁じます |
| 112 | +- 生成された音声の利用については、利用者自身の責任において行ってください |
| 113 | +- 本ソフトウェアの使用により生じたいかなる損害についても、開発者は責任を負いません |
| 114 | +- 各国・地域の法令を遵守してご利用ください |
50 | 115 |
|
51 | | -### 5. 襍キ蜍・ |
52 | | -run.bat 繧偵ム繝悶Ν繧ッ繝ェ繝・け |
| 116 | +## 謝辞 |
53 | 117 |
|
54 | | -## 繝ゥ繧、繧サ繝ウ繧ケ |
| 118 | +- 元リポジトリ: [FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice) |
| 119 | +- Alibaba FunAudioLLM チームの素晴らしい研究に感謝します |
| 120 | +- [OpenAI Whisper](https://github.com/openai/whisper) |
| 121 | +- [Matcha-TTS](https://github.com/shivammehta25/Matcha-TTS) |
55 | 122 |
|
56 | | -- CosyVoice: Apache License 2.0 (c) Alibaba Inc |
57 | | -- Whisper: MIT License (c) OpenAI |
| 123 | +## 引用 |
58 | 124 |
|
59 | | -## 蜈崎イャ莠矩・ |
60 | | -譛ャ繧ス繝輔ヨ繧ヲ繧ァ繧「縺ッ縲檎樟迥カ縺ョ縺セ縺セ縲肴署萓帙&繧後∪縺吶る浹螢ー繧ッ繝ュ繝シ繝ウ謚陦薙・謔ェ逕ィ縺ッ蝗コ縺冗ヲ√§縺セ縺吶・逕滓・縺輔l縺滄浹螢ー縺ョ蛻ゥ逕ィ縺ッ蛻ゥ逕ィ閠・・霄ォ縺ョ雋ャ莉サ縺ォ縺翫>縺ヲ陦後▲縺ヲ縺上□縺輔>縲・ |
61 | | -## 隰晁セ・ |
62 | | -蜈・Μ繝昴ず繝医Μ: https://github.com/FunAudioLLM/CosyVoice |
| 125 | +```bibtex |
| 126 | +@article{du2025cosyvoice, |
| 127 | + title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training}, |
| 128 | + author={Du, Zhihao and others}, |
| 129 | + journal={arXiv preprint arXiv:2505.17589}, |
| 130 | + year={2025} |
| 131 | +} |
| 132 | +``` |
0 commit comments