0%

语音生成大模型系列（一）：TorToise TTS

Posted on 2023-12-23 Edited on 2025-03-27 In Speech Generation

TorToise: Better speech synthesis through scaling，通过利用VQVAE将 mel 谱进行离散化，然后利用 GPT2 的方式自回归生成离散 mel token，再通过扩散模型生成 mel 谱图，最后经过 univnet 声码器得到合成的音频。主要借鉴了 DALL-E 文生图的方法。TorToise 利用了约 5 万小时英文博客和有声书数据进行训练，旨在打造两方面的能力：

Strong multi-voice capabilities.
Highly realistic prosody and intonation.

框架图

Paper

论文：https://arxiv.org/abs/2305.07243

代码

训练框架：DAS
推理代码：https://github.com/neonbjb/tortoise-tts

各模块详解

原文框架图如下：

VQVAE

GPT2

Diffusion Decoder

CLIP

Univnet

中英文训练细节

数据收集与清洗

TTS前端选择与实验

VQVAE 训练过程

GPT2 训练过程

Diffusion 训练过程

思考及改进思路