学习语义图上的推理路径,为基于视频的对话建立基础
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架,它包括一系列Transformer模块,用于解决AVSD任务中的多模态学习和推理,并提出了一种新型的动态场景图表示学习方法。实验结果表明,该模型在所有度量标准上均取得了最先进的性能。
Jul, 2020
本文提出了一种新颖的知识桥梁图网络模型,该模型使用图形在细粒度上构建跨模式语义关系的桥梁,通过自适应信息选择模式检索所需的知识,从而清晰地提取视觉对话的推理线索,并通过实验结果在VisDial v1.0和VisDial-Q数据集上展示了超越现有模型的最先进成果。
Aug, 2020
提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架,名为Bi-directional Spatio-Temporal Learning(BiST)。结果表明,BiST在视频段落检索(AVSD)基准测试中取得了有竞争力的性能并产生了合理的响应。另外,在 TGIF-QA 基准测试中,BiST模型比先前的方法表现更好。
Oct, 2020
本文介绍了 DVD 数据集,使用该数据集分析现有方法并提供有趣的见解,探讨视频对话系统的能力与局限性,并为不同类型的空间时间推理注释详细信息,该数据集明确旨在减少模型可能利用的偏见。
Jan, 2021
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
Dec, 2021
本文提出了一种基于多结构的常识知识的推理模型,通过句子级事实和图级事实表示外部知识,通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中,已在VisDial v1.0和VisDialCK数据集上取得了有效的性能优于比较方法。
Apr, 2022
本文研究了基于视频对话生成,提出一种方法,可以将视频数据集成到预训练语言模型中,通过多模态推理实现各种模态之间的互补信息,实验结果表明,该模型能够在自动和人工评估方面显著优于现有的最先进模型。
Oct, 2022
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023