音素级别hard duration及低资源这两个痛点,导致FastSpeech2模型的韵律表现不太好。但由于其鲁棒性高,我这里想将文本信息加到里面,利用大量文本信息先构建韵律边界(PW,PPH,IPH)的预测模型。再通过Length Regular机制将韵律边界映射到音素级别,从而提高TTS的韵律。
利用TTS合成语音增强ASR识别专有行业名词的准确率
Posted on
In
Automatic Speech Recognition
高度数据驱动的端到端ASR系统在应用到实际业务场景中往往识别特定行业名词的准确率不高,如muji外呼中“无印良品”这个名词经常会识别错误。传统混合ASR模型可以修改解码过程和语言模型(LM)即可以达到快速更新,从而可以较准确的识别特定行业专有名词。但是针对端到端ASR模型修改就比较麻烦了,本文整理并验证了利用TTS合成语音来增强ASR识别专有行业名词的准确率。
Voice Conversion Review
新网银行TTS挑战赛
HiFi-GAN
HiFi-GAN:有效的、从 mel-spectrogram 生成高质量的 raw waveforms 模型。主要考虑了“语音信号是由不同周期的正弦组成”,在 GAN 模型的 generator 和 discriminator 分别利用了这一点,对音频的周期模式进行建模,从而提高了合成质量。
怎么构建一个双语或Code-Switched的TTS系统?
摘要
问题:怎么根据单一语种数据,构建双语或者是Code-Switched的TTS。
解决方案:利用VC进行数据增强,然后再强行将两个语种的数据堆到一个TTS模型就可以
这篇文章是阿里提出的,详细地址https://arxiv.org/abs/2010.08136v1
WeNet
Posted on
In
ASR
Speaker Recognition:An Overview
Tacotron2
Clash
Posted on
In
Tools