语音生成大模型系列（三）：VALL-E

Posted on 2023-12-23 In Speech Generation

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers: 想法和思路与 AudioLM 类似，就是将 Semantic tokens 生成的过程换成了文本输入。然后利用几秒的提示语音获得声学特征，包括音色、韵律、背景环境等。这样就可以做 zero-shot 的语音生成了。VALL-E 利用 EnCodec 作为离散 token 提取和解码模型。VALL-E 有一些后续工作，包括多语音版本VALL-E X，多任务版本Speech X。

语音生成大模型系列（二）：AudioLM

Posted on 2023-12-23 In Speech Generation

AudioLM: a Language Modeling Approach to Audio Generation: 利用 LLM 的思路对语音建模，目的是可以语音续写（就是给一个几秒的语音 Prompt，然后按照这个提示往后续写），实验下来不仅可以进行语音续写，还可以进行钢琴🎹曲的续写。模型主要利用了两个离散化方法，分别是通过 SoundStream 获得 Acoustic tokens，通过 w2v-BERT 获得 Semantic tokens。Semantic token 主要保证续写的长期结构，主要是可懂度； Acoustic token 主要保证续写的声学特征，主要是音色、韵律、背景环境这种。

语音生成大模型系列（一）：TorToise TTS

Posted on 2023-12-23 In Speech Generation

TorToise: Better speech synthesis through scaling，通过利用VQVAE将 mel 谱进行离散化，然后利用 GPT2 的方式自回归生成离散 mel token，再通过扩散模型生成 mel 谱图，最后经过 univnet 声码器得到合成的音频。主要借鉴了 DALL-E 文生图的方法。TorToise 利用了约 5 万小时英文博客和有声书数据进行训练，旨在打造两方面的能力：

Strong multi-voice capabilities.
Highly realistic prosody and intonation.

非实时 VC

Posted on 2023-12-02 Edited on 2023-12-23 In VoiceConversion

摘要

非实时语音转换：语音（歌声）转换的开源项目已经很多了，包括so-vits-svc、RVC等。在这里主要想记录一下最近的一些经验。我主要想构建 any-to-many 的语音转换，many提供的数据要尽可能的少（10-20句），同时要保证模型的鲁棒性，即转换之后的可懂度要高、与目标说话人的相似度要高。

MQTTS

Posted on 2023-04-11 Edited on 2023-05-27 In Text to Speech

MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
通过将传统以 Mel谱 为中间件建模的方式，改变为以 多个矢量组 为中间件建模的方式，解决真实世界中自发的口语化语音难以建模的问题。利用该方法可以使用大数据量（如 WeNetSpeech）训练TTS模型，合成语音更加真实自然。