低资源下怎么提高FastSpeech2的韵律表现

Posted on 2022-06-14 Edited on 2022-08-17 In Text to Speech

音素级别hard duration及低资源这两个痛点，导致FastSpeech2模型的韵律表现不太好。但由于其鲁棒性高，我这里想将文本信息加到里面，利用大量文本信息先构建韵律边界（PW，PPH，IPH）的预测模型。再通过Length Regular机制将韵律边界映射到音素级别，从而提高TTS的韵律。

利用TTS合成语音增强ASR识别专有行业名词的准确率

Posted on 2022-06-14 In Automatic Speech Recognition

高度数据驱动的端到端ASR系统在应用到实际业务场景中往往识别特定行业名词的准确率不高，如muji外呼中“无印良品”这个名词经常会识别错误。传统混合ASR模型可以修改解码过程和语言模型（LM）即可以达到快速更新，从而可以较准确的识别特定行业专有名词。但是针对端到端ASR模型修改就比较麻烦了，本文整理并验证了利用TTS合成语音来增强ASR识别专有行业名词的准确率。

Voice Conversion Review

Posted on 2022-02-10 Edited on 2022-02-15 In Text to Speech

语音转换综述

新网银行TTS挑战赛

Posted on 2022-01-28 Edited on 2022-02-24 In TTS Challenge

2021“创青春·交子杯”新网银行金融科技挑战赛（文字的声音）

初赛排名

HiFi-GAN

Posted on 2022-01-21 Edited on 2022-09-08 In Text to Speech

HiFi-GAN：有效的、从 mel-spectrogram 生成高质量的 raw waveforms 模型。主要考虑了“语音信号是由不同周期的正弦组成”，在 GAN 模型的 generator 和 discriminator 分别利用了这一点，对音频的周期模式进行建模，从而提高了合成质量。