May, 2024

Zipper:融合多模式的多塔解码器架构

TL;DR使用跨注意力机制灵活地组合独立预训练的单模态解码器,提出了一个称为 Zipper 的多塔解码器架构,解决了整合不同模态训练的多个生成基础模型的挑战。在融合语音和文本模态的实验中,我们展示了该架构在具有有限对齐文本 - 语音数据的场景中表现出很强的竞争力。我们还展示了模型的灵活性,在跨模态任务中通过冻结对应的模态塔(例如文本),以选择性地保持单模态(例如文本到文本生成)生成性能。在输出模态为文本的跨模态任务中,如自动语音识别(ASR),我们展示了冻结文本主干对性能的几乎没有影响。在输出模态为语音的文本到语音生成(TTS)任务中,我们展示了使用预训练的语音主干相比基准模型能够获得更好的性能。