2021“创青春·交子杯”新网银行金融科技挑战赛(文字的声音)
HiFi-GAN
HiFi-GAN:有效的、从 mel-spectrogram 生成高质量的 raw waveforms 模型。主要考虑了“语音信号是由不同周期的正弦组成”,在 GAN 模型的 generator 和 discriminator 分别利用了这一点,对音频的周期模式进行建模,从而提高了合成质量。
怎么构建一个双语或Code-Switched的TTS系统?
摘要
问题:怎么根据单一语种数据,构建双语或者是Code-Switched的TTS。
解决方案:利用VC进行数据增强,然后再强行将两个语种的数据堆到一个TTS模型就可以
这篇文章是阿里提出的,详细地址https://arxiv.org/abs/2010.08136v1
WeNet
Posted on
In
ASR
Speaker Recognition:An Overview
Tacotron2
Clash
Posted on
In
Tools
FastSpeech2
服务器常用命令汇总
TTS Data
语音合成数据集
1. 标贝数据
Datasets detail:
- Language:Chinese Mandarin
- Gender:Female
- Age:20-30 years
- Hours:12
- Data Format:Audio and Text, 48KHz, 16 bit, PCM WAVE
- Annotation:phoneme boundaries, prosody
- 下载链接:https://test.data-baker.com/#/data/index/source