0%

音素级别hard duration及低资源这两个痛点,导致FastSpeech2模型的韵律表现不太好。但由于其鲁棒性高,我这里想将文本信息加到里面,利用大量文本信息先构建韵律边界(PW,PPH,IPH)的预测模型。再通过Length Regular机制将韵律边界映射到音素级别,从而提高TTS的韵律。

Read more »

高度数据驱动的端到端ASR系统在应用到实际业务场景中往往识别特定行业名词的准确率不高,如muji外呼中“无印良品”这个名词经常会识别错误。传统混合ASR模型可以修改解码过程和语言模型(LM)即可以达到快速更新,从而可以较准确的识别特定行业专有名词。但是针对端到端ASR模型修改就比较麻烦了,本文整理并验证了利用TTS合成语音来增强ASR识别专有行业名词的准确率。

Read more »

HiFi-GAN:有效的、从 mel-spectrogram 生成高质量的 raw waveforms 模型。主要考虑了“语音信号是由不同周期的正弦组成”,在 GAN 模型的 generator 和 discriminator 分别利用了这一点,对音频的周期模式进行建模,从而提高了合成质量。

Read more »

摘要

声纹识别:主要是通过声音来识别人的任务。主要的子任务有 speaker verification(说话人验证)、speaker identification(说话人识别)和 speaker diarization(从多说话人语音中分离成单个说话人的语音片段)。下图可以很好说明

task

Read more »

摘要

Tacotron2:Tacotron 的改良版。Tacotron应该是第一个基于深度学习的端到端语音合成模型。

Read more »