0%

语音生成大模型系列(一):TorToise TTS

TorToise: Better speech synthesis through scaling,通过利用VQVAE将 mel 谱进行离散化,然后利用 GPT2 的方式自回归生成离散 mel token,再通过扩散模型生成 mel 谱图,最后经过 univnet 声码器得到合成的音频。主要借鉴了 DALL-E 文生图的方法。TorToise 利用了约 5 万小时英文博客和有声书数据进行训练,旨在打造两方面的能力:

  • Strong multi-voice capabilities.
  • Highly realistic prosody and intonation.

Paper

论文:https://arxiv.org/abs/2305.07243

代码

训练框架:DAS
推理代码:https://github.com/neonbjb/tortoise-tts

各模块详解

框架图如下:
TorToise

VQVAE

GPT2

Diffusion Decoder

CLIP

Univnet

中英文训练细节

数据收集与清洗

TTS前端选择与实验

VQVAE 训练过程

GPT2 训练过程

Diffusion 训练过程

思考及改进思路