学习语义图上的推理路径,为基于视频的对话建立基础
本文研究了基于视频对话生成,提出一种方法,可以将视频数据集成到预训练语言模型中,通过多模态推理实现各种模态之间的互补信息,实验结果表明,该模型能够在自动和人工评估方面显著优于现有的最先进模型。
Oct, 2022
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的 GPT-2 模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023
本论文研究了视觉对话中的两个核心难题:对话历史下的语义结构推理和给定问题的多个合适答案的识别。为解决这些挑战,我们提出了 Sparse Graph Learning (SGL) 和 Knowledge Transfer (KT) 方法,使用了基于图结构学习的 SGL 推断出稀疏的对话结构,进而创新性地利用了 KT 以缓解单一答案标签限制模型获取多个合理答案的问题。结果表明,模型在 VisDial v1.0 数据集上具有比基线方法更强的推理能力,且表现优于现有的最先进方法。
Apr, 2020
介绍了一种基于图形的循环检索方法,学习在 Wikipedia 图形上检索推理路径来回答多跳开放域问答问题。该方法在三个开放域 QA 数据集上实现了最新技术成果,特别是在 HotpotQA 中表现出显著的改进,超过了以前最好的模型 14 个百分点以上。
Nov, 2019
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文提出了一种新颖的知识桥梁图网络模型,该模型使用图形在细粒度上构建跨模式语义关系的桥梁,通过自适应信息选择模式检索所需的知识,从而清晰地提取视觉对话的推理线索,并通过实验结果在 VisDial v1.0 和 VisDial-Q 数据集上展示了超越现有模型的最先进成果。
Aug, 2020
本文介绍了 DVD 数据集,使用该数据集分析现有方法并提供有趣的见解,探讨视频对话系统的能力与局限性,并为不同类型的空间时间推理注释详细信息,该数据集明确旨在减少模型可能利用的偏见。
Jan, 2021
本文提出了一种新的模型来解决复杂的视觉对话结构问题,并将其明确地形式化为具有部分观察节点和未知图结构(对话中的关系)的图形模型中的推断问题。通过期望最大化算法,我们可以在推理过程中推断出潜在的对话结构和所需的答案值,并提出了一种可微分图神经网络解决方案。实验证明,我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异,并且能够推断出更好的对话推理潜在结构。
Apr, 2019
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020