May, 2023

VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

TL;DR本研究提出了 VioLA 模型,它是一个单自回归 Transformer 解码器网络,通过多任务学习框架,将涉及语音和文本的各种跨模态任务统一为条件编解码器语言模型任务。该模型通过离线神经编解码器将所有语音话语转换为离散标记,进而将所有任务转换为基于标记的序列转换问题,进而自然地使用一个条件语言模型处理。研究表明,VioLA 模型可良好地支持单模和跨模任务,并且解码器模型优于强基线性能。