视频场景对话的结构化共指图注意力

Mar, 2021

视频场景对话的结构化共指图注意力

Structured Co-reference Graph Attention for Video-grounded Dialogue

Junyeong Kim, Sunjae Yoon, Dahyun Kim, Chang D. Yoo

TL;DR本文介绍了一个名为SCGA的视频对话系统，该系统使用结构化共指解析器和时空视频推理器来解决视频场景下的共指和推理问题，并利用指针网络动态复制问题的部分来解码答案序列，在AVSD@DSTC7和AVSD@DSTC8数据集以及TVQA数据集上验证了其有效性。

Abstract

A video-grounded dialogue system referred to as the structured co-reference graph attention (SCGA) is presented for decoding the answer se

发现论文，激发创造

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架，它包括一系列Transformer模块，用于解决AVSD任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

BiST: 视频对话的双向时空推理

提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架，名为Bi-directional Spatio-Temporal Learning（BiST）。结果表明，BiST在视频段落检索（AVSD）基准测试中取得了有竞争力的性能并产生了合理的响应。另外，在 TGIF-QA 基准测试中，BiST模型比先前的方法表现更好。

Oct, 2020

DVD：视频语境中多步推理的诊断数据集

本文介绍了 DVD 数据集，使用该数据集分析现有方法并提供有趣的见解，探讨视频对话系统的能力与局限性，并为不同类型的空间时间推理注释详细信息，该数据集明确旨在减少模型可能利用的偏见。

Jan, 2021

学习语义图上的推理路径，为基于视频的对话建立基础

使用PDC模型通过语义图的构建和路径预测，依据对话上下文进行推理，从而在多轮视频对话中检索视觉线索并有效回答问题。

Mar, 2021

利用视频作为条件图层级的多粒度问答

本文提出了一种将视频建模为条件分层图层次结构的方法，通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念，该方法超越了先前方法的表现，且对于不同类型的问题也具有更好的泛化能力。

Dec, 2021

视频问答的 2.5+1 维时空场景图

本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法，将视频帧转成伪-3D视图并保持语义，然后基于此表示应用 transformer 模型进行推理，实验证明，该方法在视频问答任务中具有优异的性能。

Feb, 2022

揭示隐藏的关联：针对与视频相关的对话进行迭代跟踪和推理

对比传统的视觉问答，基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战，我们提出了一种迭代的跟踪与推理策略，将文本编码器、视觉编码器和生成器相结合。在核心部分，我们的文本编码器具有路径追踪和聚合机制，能够从对话历史中提取对解读提问至关重要的细微差别。同时，我们的视觉编码器采用迭代推理网络，精心设计以从视频中提取和强调关键的视觉标记，增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器，将这些丰富的信息整合在一起，生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。

Oct, 2023

MSG-BART: 视频情景增强的多粒度编码器-解码器语言模型用于基于视频的对话生成

提出了一种名为MSG-BART的新方法，通过将多粒度时空场景图集成到编码器-解码器预训练语言模型中，增强了视频信息的整合，改进了整体感知和目标推理能力，进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验，表明MSG-BART相比一系列最先进的方法具有显著的优势。

Sep, 2023

你需要的只是基础吗？双重时间基础用于视频对话

本研究针对视频对话生成中的视频内容理解和对话历史的时间细微差别进行探讨，填补了以往研究在时间动态上的空白。本文提出的双重时间基础视频对话模型（DTGVD）结合了当前两种主要研究方法的优势，通过预测对话特定的时间区域来过滤视频内容，并在视频和对话上下文中具有更强的响应基础。研究结果显示，该模型在视频与对话动态的对齐方面具有显著提升。

Oct, 2024