ACLMay, 2023

口语对话理解的语音 - 文本对话预训练与显式跨模态对齐

TL;DR本文提出了第一种语音 - 文本对话预训练模型 SPECTRA,在输入上进行了一些优化,如引入时间信息,增加上下文理解能力,并通过实验进行了充分验证,展示了 SPECTRA 模型在语音 - 文本对话中学习言语 - 文本对齐和多轮对话上下文的能力比其他模型更强。