0%

Low-Resource Mongolian Speech Synthesis Based on Automatic Prosody Annotation

什么是低资源,在语音合成领域其实可以从两方面考虑:

  • 语料数据少,即成对的<text, audio>少,表现就是整体录音时长短;
  • 标注数据少,没有 text 与 audio 的对齐信息,没有 text 更多的标注信息,如韵律,情感等

此文主要是参加“全国人机语音通讯学术会议(NCMMSC)”中的特别会议“面向蒙古语的低资源语音合成竞赛”,会议地址http://mglip.com/challenge/NCMMSC2022-MTTSC/index.html

论文地址https://arxiv.org/abs/2211.09365

Read more »

AdaVocoder: Adaptive Vocoder for Custom Voice
通过引入一种 domain adaptation 损失的自适应声码器,主要是针对 few-shot 问题。

Read more »

本文将详细解释 Wav 头文件,并展示利用 python 构建 Wav 头文件,配合 fastapi 将合成语音以"audio/wav"格式进行传输。

Read more »

摘要

G2PW:A ConditionalWeighted Softmax BERT for Polyphone Disambiguation in Mandarin

论文最亮点的地方是公开了基于 Mandarin Polyphone dataset with Bopomofo (MPB) 数据集训练的模型参数👍,MPB数据集共包含436个多音字,2610344条包含多音字的文本。

Read more »

VITS 基于变分推断的端到端TTS模型(融合了声学模型与声码器)

Read more »

音素级别hard duration及低资源这两个痛点,导致FastSpeech2模型的韵律表现不太好。但由于其鲁棒性高,我这里想将文本信息加到里面,利用大量文本信息先构建韵律边界(PW,PPH,IPH)的预测模型。再通过Length Regular机制将韵律边界映射到音素级别,从而提高TTS的韵律。

Read more »

高度数据驱动的端到端ASR系统在应用到实际业务场景中往往识别特定行业名词的准确率不高,如muji外呼中“无印良品”这个名词经常会识别错误。传统混合ASR模型可以修改解码过程和语言模型(LM)即可以达到快速更新,从而可以较准确的识别特定行业专有名词。但是针对端到端ASR模型修改就比较麻烦了,本文整理并验证了利用TTS合成语音来增强ASR识别专有行业名词的准确率。

Read more »