0%

MQTTS

Posted on 2023-04-11 Edited on 2023-05-27 In Text to Speech

MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
通过将传统以 Mel谱 为中间件建模的方式，改变为以 多个矢量组 为中间件建模的方式，解决真实世界中自发的口语化语音难以建模的问题。利用该方法可以使用大数据量（如 WeNetSpeech）训练TTS模型，合成语音更加真实自然。

NVC-Net

Posted on 2022-12-11 Edited on 2023-01-03 In Text to Speech

一种直接利用原始音频的语音转换系统，可实现 zero-shot 语音转换。

AdaSpeech2

Posted on 2022-11-23 In Text to Speech

通过引入一个 Pluggable 的 mel decoder 来构建仅仅使用音频（没有转录文本）的 Custom Voice 系统。

Low-Resource Mongolian Speech Synthesis

Posted on 2022-10-21 Edited on 2022-11-18 In Text to Speech

Low-Resource Mongolian Speech Synthesis Based on Automatic Prosody Annotation

什么是低资源，在语音合成领域其实可以从两方面考虑：

语料数据少，即成对的<text, audio>少，表现就是整体录音时长短；
标注数据少，没有 text 与 audio 的对齐信息，没有 text 更多的标注信息，如韵律，情感等

此文主要是参加“全国人机语音通讯学术会议(NCMMSC)”中的特别会议“面向蒙古语的低资源语音合成竞赛”，会议地址http://mglip.com/challenge/NCMMSC2022-MTTSC/index.html

论文地址https://arxiv.org/abs/2211.09365

AdaVocoder

Posted on 2022-09-21 Edited on 2022-09-22 In Text to Speech

AdaVocoder: Adaptive Vocoder for Custom Voice
通过引入一种 domain adaptation 损失的自适应声码器，主要是针对 few-shot 问题。

Wav 文件头

Posted on 2022-09-02 In Text to Speech

本文将详细解释 Wav 头文件，并展示利用 python 构建 Wav 头文件，配合 fastapi 将合成语音以"audio/wav"格式进行传输。

文本语音驱动数字人表情口型竞赛

Posted on 2022-08-15 Edited on 2022-08-16 In Metaverse

文本语音驱动数字人表情口型竞赛由SMG技术中心（上海东方传媒技术有限公司）、SMG融媒体中心、AR/VR技术及应用国家工程实验室主办，详细说明可参考比赛官网

G2PW

Posted on 2022-08-08 Edited on 2022-08-10 In Text to Speech

摘要

G2PW：A ConditionalWeighted Softmax BERT for Polyphone Disambiguation in Mandarin

论文最亮点的地方是公开了基于 Mandarin Polyphone dataset with Bopomofo (MPB) 数据集训练的模型参数👍，MPB数据集共包含436个多音字，2610344条包含多音字的文本。

论文地址：https://arxiv.org/pdf/2203.10430.pdf
代码地址：https://github.com/GitYCC/g2pW
基于MPB训练的模型地址：https://storage.googleapis.com/esun-ai/g2pW/G2PWModel-v1.zip

VITS

Posted on 2022-08-03 Edited on 2022-09-16 In Text to Speech

VITS 基于变分推断的端到端TTS模型（融合了声学模型与声码器）

PortaSpeech

Posted on 2022-07-01 In Text to Speech

摘要

PortaSpeech：Portable and High-Quality Generative Text-to-Speech