ACLJun, 2024

基于多模态上下文语义解析的语音处理

TL;DR通过将多模态输入与先前的语境相结合,我们介绍了一种称为 SPICE 的任务,旨在提高人工智能代理程序的上下文意识。SPICE 不仅仅是传统语义解析,还提供了一种结构化、可解释的框架,用于根据新信息动态更新代理程序的知识,反映人类沟通的复杂性。我们开发了 VG-SPICE 数据集,旨在通过口语对话交换中的视觉场景图构建来挑战代理程序,并突出了语音和视觉数据的整合。我们还介绍了用于 VG-SPICE 的音频 - 视觉对话场景解析器 (AViD-SP)。这些创新旨在改进多模态信息处理和整合。VG-SPICE 数据集和 AViD-SP 模型均已公开提供。