ACLApr, 2022

端到端口语对话问答:任务,数据集和模型

TL;DR提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。