TorToise: Better speech synthesis through scaling,通过利用VQVAE将 mel 谱进行离散化,然后利用 GPT2 的方式自回归生成离散 mel token,再通过扩散模型生成 mel 谱图,最后经过 univnet 声码器得到合成的音频。主要借鉴了 DALL-E 文生图的方法。TorToise 利用了约 5 万小时英文博客和有声书数据进行训练,旨在打造两方面的能力:
- Strong multi-voice capabilities.
- Highly realistic prosody and intonation.
Paper
论文:https://arxiv.org/abs/2305.07243
代码
训练框架:DAS
推理代码:https://github.com/neonbjb/tortoise-tts
各模块详解
框架图如下: