0%

TTS Data

语音合成数据集

1. 标贝数据

Datasets detail:

注意:

  • 该数据集包含“儿化音”,如“玩儿”拼音为“wanr2”

2. AISHELL3

希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)

Datasets detail:

  • Sampling Rate : 44.1kHz
  • Sample Format : 16bit
  • Environment : Quiet indoor
  • Speech Data Type : PCM
  • Channel Number : 1
  • Recording Equipment : High fidelity microphone
  • Sentences : 88035 utterances
  • Speaker : 218 speakers (43 male and 175 female)
  • 下载链接:http://www.aishelltech.com/aishell_3

注意:同样存在“儿化音”

3.DiDiSpeech

DidiSpeech是一个针对中文个性化语音合成任务的大规模数据库。该数据库提供了由超过6000名说话人录制的近800小时的语音数据。

数据库中所有的音频均由说话人使用手机在安静环境中录制,具有较高的语音质量。同时,数据库中的说话人在性别、年龄以及地域等方面分布均匀,具有充足的多样性。在录制文本的设计上,数据库分别设计了平行文本与非平行文本,以确保在音色转换、多说话人语音合成等任务上数据的高度可用。此外,所有录制文本提供了注音标注。(暂时申请不到)

论文地址:https://arxiv.org/abs/2010.09275