ACLJun, 2024

直白真实对话:面对面交流的口语对话模型

TL;DR本研究介绍了一种新颖的面对面口语对话模型,利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音,旨在创建一种不依赖中间文本的化身聊天机器人系统,并引入 MultiDialog,这是第一个包含约 340 小时近 9000 个对话的大规模多模态(音频和视觉)口语对话语料库。