语音合成数据集
1. 标贝数据
Datasets detail:
- Language:Chinese Mandarin
- Gender:Female
- Age:20-30 years
- Hours:12
- Data Format:Audio and Text, 48KHz, 16 bit, PCM WAVE
- Annotation:phoneme boundaries, prosody
- 下载链接:https://test.data-baker.com/#/data/index/source
注意:
- 该数据集包含“儿化音”,如“玩儿”拼音为“wanr2”
2. AISHELL3
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
Datasets detail:
- Sampling Rate : 44.1kHz
- Sample Format : 16bit
- Environment : Quiet indoor
- Speech Data Type : PCM
- Channel Number : 1
- Recording Equipment : High fidelity microphone
- Sentences : 88035 utterances
- Speaker : 218 speakers (43 male and 175 female)
- 下载链接:http://www.aishelltech.com/aishell_3
注意:同样存在“儿化音”
3.DiDiSpeech
DidiSpeech是一个针对中文个性化语音合成任务的大规模数据库。该数据库提供了由超过6000名说话人录制的近800小时的语音数据。
数据库中所有的音频均由说话人使用手机在安静环境中录制,具有较高的语音质量。同时,数据库中的说话人在性别、年龄以及地域等方面分布均匀,具有充足的多样性。在录制文本的设计上,数据库分别设计了平行文本与非平行文本,以确保在音色转换、多说话人语音合成等任务上数据的高度可用。此外,所有录制文本提供了注音标注。(暂时申请不到)