0%

MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
通过将传统以 Mel谱 为中间件建模的方式,改变为以 多个矢量组 为中间件建模的方式,解决真实世界中自发的口语化语音难以建模的问题。利用该方法可以使用大数据量(如 WeNetSpeech)训练TTS模型,合成语音更加真实自然。

Read more »

Low-Resource Mongolian Speech Synthesis Based on Automatic Prosody Annotation

什么是低资源,在语音合成领域其实可以从两方面考虑:

  • 语料数据少,即成对的<text, audio>少,表现就是整体录音时长短;
  • 标注数据少,没有 text 与 audio 的对齐信息,没有 text 更多的标注信息,如韵律,情感等

此文主要是参加“全国人机语音通讯学术会议(NCMMSC)”中的特别会议“面向蒙古语的低资源语音合成竞赛”,会议地址http://mglip.com/challenge/NCMMSC2022-MTTSC/index.html

论文地址https://arxiv.org/abs/2211.09365

Read more »

AdaVocoder: Adaptive Vocoder for Custom Voice
通过引入一种 domain adaptation 损失的自适应声码器,主要是针对 few-shot 问题。

Read more »

本文将详细解释 Wav 头文件,并展示利用 python 构建 Wav 头文件,配合 fastapi 将合成语音以"audio/wav"格式进行传输。

Read more »

摘要

G2PW:A ConditionalWeighted Softmax BERT for Polyphone Disambiguation in Mandarin

论文最亮点的地方是公开了基于 Mandarin Polyphone dataset with Bopomofo (MPB) 数据集训练的模型参数👍,MPB数据集共包含436个多音字,2610344条包含多音字的文本。

Read more »

VITS 基于变分推断的端到端TTS模型(融合了声学模型与声码器)

Read more »