学習音声ファイルについて
- 本ページの条件を満たさない場合、学習したAI音声の品質が低下する場合があります。
- 生成音声に影響するため、できる限り静かな場所でノイズが入らないように収録してください。
- ファイル形式(コーデック)は任意ですが、できる限り無圧縮(wavやflac)などにしてください。
- 可能な限り高いサンプリングレート/ビットレートで高音質な音声をご準備ください。
- チャンネル数はモノラル/ステレオどちらでも大丈夫です。
- ファイル名に感情の種類を含める必要はありませんが、他のファイルとは一致しない一意なファイル名にしてください。
- 十分な品質の合成音声にするための目安は、音声の長さが各感情それぞれで10分以上、全体で1時間以上です。※必要なデータ量は音声によって変動します
- 下記の形式に従い、台本(書き起こしテキスト)のある音声データと台本のない音声のどちらか、または両方ご準備ください。
ファイル形式について
1. 台本のある音声データ
with_textフォルダに音声ファイルを格納してください。
text.csv ファイルに各音声ファイルに対応する 感情(emotion)、拡張子(.wavなど)を除いたファイル名、台本(書き起こしテキスト)を記載してください。
注意事項
- 各音声ファイルは5~15秒程度を目安とし、最大30秒以内にしてください。