Jan, 2024
高效并行音频生成使用组掩码语言建模
Efficient Parallel Audio Generation using Group Masked Language Modeling
Myeonghun Jeong, Minchan Kim, Joun Yeop Lee, Nam Soo Kim
TL;DR我们提出了一种快速高质量的并行音频生成编解码语言模型,并采用组遮罩语言模型和组迭代并行解码来实现高效的并行音频生成,通过有效建模组内条件依赖关系,使用跨注意力机制来捕捉提示语音的说话风格并提高计算效率,在基于提示的音频生成中验证实验结果表明,我们提出的模型优于基线。