MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
通过将传统以 Mel谱
为中间件建模的方式,改变为以 多个矢量组
为中间件建模的方式,解决真实世界中自发的口语化语音难以建模的问题。利用该方法可以使用大数据量(如 WeNetSpeech)训练TTS模型,合成语音更加真实自然。
NVC-Net
一种直接利用原始音频的语音转换系统,可实现 zero-shot 语音转换。
AdaSpeech2
Posted on
In
Text to Speech
通过引入一个 Pluggable 的 mel decoder 来构建仅仅使用音频(没有转录文本)的 Custom Voice 系统。
Low-Resource Mongolian Speech Synthesis
Low-Resource Mongolian Speech Synthesis Based on Automatic Prosody Annotation
什么是低资源,在语音合成领域其实可以从两方面考虑:
- 语料数据少,即成对的<text, audio>少,表现就是整体录音时长短;
- 标注数据少,没有 text 与 audio 的对齐信息,没有 text 更多的标注信息,如韵律,情感等
此文主要是参加“全国人机语音通讯学术会议(NCMMSC)”中的特别会议“面向蒙古语的低资源语音合成竞赛”,会议地址http://mglip.com/challenge/NCMMSC2022-MTTSC/index.html
AdaVocoder
AdaVocoder: Adaptive Vocoder for Custom Voice
通过引入一种 domain adaptation
损失的自适应声码器,主要是针对 few-shot
问题。
Wav 文件头
Posted on
In
Text to Speech
本文将详细解释 Wav 头文件,并展示利用 python 构建 Wav 头文件,配合 fastapi 将合成语音以"audio/wav"格式进行传输。
文本语音驱动数字人表情口型竞赛
文本语音驱动数字人表情口型竞赛由SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室主办,详细说明可参考比赛官网
G2PW
VITS
VITS 基于变分推断的端到端TTS模型(融合了声学模型与声码器)
PortaSpeech
Posted on
In
Text to Speech