ACLJul, 2020

车内对话代理的乘客意图音视频理解

TL;DR本文探讨在自动驾驶交互系统中,构建多模态对话理解能力在车内情境下以提高乘客舒适度的重要性;通过将语言输入与车内外的非语言 / 声音和视觉线索结合起来,实现对车内话语的多模态理解,从而为 AV 开发上下文和视觉基础的对话代理提供支持;实验结果表明,多模态方法在意图检测方面胜过文本基准方法。