通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求AI智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify了机器和人类在视觉对话任务上的性能差距,进而演示了第一款“视觉聊天机器人”。
Nov, 2016
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文提出了一种名为Recursive Visual Attention(RvA)的新型注意力机制,用于解决视觉对话中的视觉协同参考问题,并在大规模的VisDial v0.9和v1.0数据集上进行了实验,结果表明RvA不仅超越了现有技术,而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。
Dec, 2018
开发了一个名为CLEVR-Dialog的大型诊断数据集,以研究视觉对话中的多轮推理(multiround reasoning),在其中所有视觉对话的所有方面都得到了完全注释。使用CLEVR-Dialog测量了标准视觉对话模型的性能,特别是针对视觉指代消解(coreference resolution)的表现,并于之前数据集中的模型进行了比较,发现了其中的差异。
Mar, 2019
该论文提出了一种基于视觉对话状态跟踪(VDST)的方法,用于生成关于图片中目标的问题,该方法将对话状态表示和跟踪作为重点。该方法利用分布和对象差异注意力等特征来生成问题,并通过GuessWhat!数据集的实验结果证明其在减少重复问题等方面的表现明显优于先前的最先进方法。
Nov, 2019
本文提出了一种基于ViLBERT的方法,该方法采用与Visual Dialog相关的视觉语言数据集的预训练,随后转移到Visual Dialog的训练上。文中还发现,在Visual Dialog中使用密集注释进行微调,可以提高NDCG,但会降低MRR。
Dec, 2019
本文提出了一种猜测状态跟踪的猜测模型,用于GuessWhat?!任务中的视觉定位和对话,以改善现有的猜测器,如Guesser的精度,实验结果显示,该模型在现有模型中表现最佳,猜测成功率达到83.3%,接近人类的84.4%。
Feb, 2020
本文提出了一种基于对比学习的框架UTC,通过联合学习来实现对话中的判别和生成任务,该框架考虑了对话的上下文和目标答案作为锚点,利用两种相辅相成的对比损失来加强彼此的表示学习信号,并在 VisDial v1.0 数据集上进行了评估,在判别和生成任务上均超越了现有方法,并且在 Recall@1上比以前的状态-of-the-art生成方法提高了2个百分点以上。
May, 2022
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023
我们提出了Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型,它在基于多模态注意力的对话状态跟踪器上运行。OLViT通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 (LST) 的全局对话状态来解决现有视频对话模型在视频中需要空间和时间定位、长期时间推理和跨多个对话轮次的准确对象跟踪等问题。与之前的工作形成鲜明对比的是,我们的方法和性质是通用的,因此能够学习到最相关的对象和轮次的连续多模态对话状态表示。因此,它们可以无缝地与大型语言模型 (LLM) 集成,并在处理不同数据集和任务时具有高灵活性。在具有挑战性的DVD (响应分类) 和SIMMC 2.1 (响应生成) 数据集上的评估结果显示,OLViT实现了两个数据集上的新的最先进性能。
Feb, 2024