Feb, 2024

OLViT: 基于注意力嵌入的视频对话多模态状态追踪

TL;DR我们提出了Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型,它在基于多模态注意力的对话状态跟踪器上运行。OLViT通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 (LST) 的全局对话状态来解决现有视频对话模型在视频中需要空间和时间定位、长期时间推理和跨多个对话轮次的准确对象跟踪等问题。与之前的工作形成鲜明对比的是,我们的方法和性质是通用的,因此能够学习到最相关的对象和轮次的连续多模态对话状态表示。因此,它们可以无缝地与大型语言模型 (LLM) 集成,并在处理不同数据集和任务时具有高灵活性。在具有挑战性的DVD (响应分类) 和SIMMC 2.1 (响应生成) 数据集上的评估结果显示,OLViT实现了两个数据集上的新的最先进性能。