0%

HiFi-GAN:有效的、从 mel-spectrogram 生成高质量的 raw waveforms 模型。主要考虑了“语音信号是由不同周期的正弦组成”,在 GAN 模型的 generator 和 discriminator 分别利用了这一点,对音频的周期模式进行建模,从而提高了合成质量。

Read more »

摘要

声纹识别:主要是通过声音来识别人的任务。主要的子任务有 speaker verification(说话人验证)、speaker identification(说话人识别)和 speaker diarization(从多说话人语音中分离成单个说话人的语音片段)。下图可以很好说明

task

Read more »

摘要

Tacotron2:Tacotron 的改良版。Tacotron应该是第一个基于深度学习的端到端语音合成模型。

Read more »