TTS Data

语音合成数据集

1. 标贝数据

Datasets detail:

Language：Chinese Mandarin
Gender：Female
Age：20-30 years
Hours：12
Data Format：Audio and Text, 48KHz, 16 bit, PCM WAVE
Annotation：phoneme boundaries, prosody
下载链接：https://test.data-baker.com/#/data/index/source

注意：

该数据集包含“儿化音”，如“玩儿”拼音为“wanr2”

2. AISHELL3

希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句，可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此数据库音字确率在98%以上。（支持学术研究，未经允许禁止商用。）

Datasets detail:

Sampling Rate : 44.1kHz
Sample Format : 16bit
Environment : Quiet indoor
Speech Data Type : PCM
Channel Number : 1
Recording Equipment : High fidelity microphone
Sentences : 88035 utterances
Speaker : 218 speakers (43 male and 175 female)
下载链接：http://www.aishelltech.com/aishell_3

注意：同样存在“儿化音”

3.DiDiSpeech

DidiSpeech是一个针对中文个性化语音合成任务的大规模数据库。该数据库提供了由超过6000名说话人录制的近800小时的语音数据。

数据库中所有的音频均由说话人使用手机在安静环境中录制，具有较高的语音质量。同时，数据库中的说话人在性别、年龄以及地域等方面分布均匀，具有充足的多样性。在录制文本的设计上，数据库分别设计了平行文本与非平行文本，以确保在音色转换、多说话人语音合成等任务上数据的高度可用。此外，所有录制文本提供了注音标注。（暂时申请不到）

论文地址：https://arxiv.org/abs/2010.09275