车内对话代理的乘客意图音视频理解

ACLJul, 2020

车内对话代理的乘客意图音视频理解

Audio-Visual Understanding of Passenger Intents for In-Cabin Conversational Agents

Eda Okur, Shachi H Kumar, Saurav Sahay, Lama Nachman

TL;DR本文探讨在自动驾驶交互系统中，构建多模态对话理解能力在车内情境下以提高乘客舒适度的重要性；通过将语言输入与车内外的非语言 / 声音和视觉线索结合起来，实现对车内话语的多模态理解，从而为 AV 开发上下文和视觉基础的对话代理提供支持；实验结果表明，多模态方法在意图检测方面胜过文本基准方法。

Abstract

Building multimodal dialogue understanding capabilities situated in the in-cabin context is crucial to enhance passenger comfort in autonomous vehicle (AV) interaction systems. To this end, understanding passenger inten

multimodal dialogue understanding autonomous vehicle interaction systems passenger intents visual clues intent detection

发现论文，激发创造

自动驾驶车辆中的自然语言交互：通过乘客话语进行意图检测和槽填充

本文讨论了自动驾驶汽车（AV）中的 AMIE，它是处理某些乘客 - 汽车交互的代理程序。我们集中探索了 AMIE 应用场景，建立了用于识别与实现乘客意图及相应插槽的分层联合模型，该模型已在多种自然命令支持方面取得较好表现。我们收集了多模态、多回合的乘客 - AMIE 对话数据集，并对喊出来的指令进行了文本可计算的构建。

Apr, 2019

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

多模态交互对话

本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。

Jun, 2020

面向可靠和可信汽车界面的自适应用户中心多模态交互

本文探讨了一种基于用户观察和启发式方法、多模态融合、聚类、模型自适应和连续学习的用户中心自适应多模态融合方法，旨在提供一种开放源代码框架，用于从移动车辆中参照外部对象，以实现可信任的以人为中心的人工智能

Nov, 2022

音频视觉场景感知对话的上下文、注意力和音频特征探索

通过结合多模式注意力机制与端到端音频分类卷积神经网络，实现智能虚拟助手（IVA）对语音、视觉场景的理解与自然对话，超越了基准系统表现。

Dec, 2018

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。