0%

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers: 想法和思路与 AudioLM 类似,就是将 Semantic tokens 生成的过程换成了文本输入。然后利用几秒的提示语音获得声学特征,包括音色、韵律、背景环境等。这样就可以做 zero-shot 的语音生成了。VALL-E 利用 EnCodec 作为离散 token 提取和解码模型。VALL-E 有一些后续工作,包括多语音版本VALL-E X,多任务版本Speech X

Read more »

AudioLM: a Language Modeling Approach to Audio Generation: 利用 LLM 的思路对语音建模,目的是可以语音续写(就是给一个几秒的语音 Prompt,然后按照这个提示往后续写),实验下来不仅可以进行语音续写,还可以进行钢琴🎹曲的续写。模型主要利用了两个离散化方法,分别是通过 SoundStream 获得 Acoustic tokens,通过 w2v-BERT 获得 Semantic tokens。Semantic token 主要保证续写的长期结构,主要是可懂度; Acoustic token 主要保证续写的声学特征,主要是音色、韵律、背景环境这种。

Read more »

TorToise: Better speech synthesis through scaling,通过利用VQVAE将 mel 谱进行离散化,然后利用 GPT2 的方式自回归生成离散 mel token,再通过扩散模型生成 mel 谱图,最后经过 univnet 声码器得到合成的音频。主要借鉴了 DALL-E 文生图的方法。TorToise 利用了约 5 万小时英文博客和有声书数据进行训练,旨在打造两方面的能力:

  • Strong multi-voice capabilities.
  • Highly realistic prosody and intonation.
Read more »

摘要

非实时语音转换:语音(歌声)转换的开源项目已经很多了,包括so-vits-svcRVC等。在这里主要想记录一下最近的一些经验。我主要想构建 any-to-many 的语音转换,many提供的数据要尽可能的少(10-20句),同时要保证模型的鲁棒性,即转换之后的可懂度要高、与目标说话人的相似度要高。

Read more »

MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
通过将传统以 Mel谱 为中间件建模的方式,改变为以 多个矢量组 为中间件建模的方式,解决真实世界中自发的口语化语音难以建模的问题。利用该方法可以使用大数据量(如 WeNetSpeech)训练TTS模型,合成语音更加真实自然。

Read more »

Low-Resource Mongolian Speech Synthesis Based on Automatic Prosody Annotation

什么是低资源,在语音合成领域其实可以从两方面考虑:

  • 语料数据少,即成对的<text, audio>少,表现就是整体录音时长短;
  • 标注数据少,没有 text 与 audio 的对齐信息,没有 text 更多的标注信息,如韵律,情感等

此文主要是参加“全国人机语音通讯学术会议(NCMMSC)”中的特别会议“面向蒙古语的低资源语音合成竞赛”,会议地址http://mglip.com/challenge/NCMMSC2022-MTTSC/index.html

论文地址https://arxiv.org/abs/2211.09365

Read more »

AdaVocoder: Adaptive Vocoder for Custom Voice
通过引入一种 domain adaptation 损失的自适应声码器,主要是针对 few-shot 问题。

Read more »

本文将详细解释 Wav 头文件,并展示利用 python 构建 Wav 头文件,配合 fastapi 将合成语音以"audio/wav"格式进行传输。

Read more »