BiST: 视频对话的双向时空推理

Oct, 2020

BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues

Hung Le, Doyen Sahoo, Nancy F. Chen, Steven C. H. Hoi

TL;DR提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架，名为Bi-directional Spatio-Temporal Learning（BiST）。结果表明，BiST在视频段落检索（AVSD）基准测试中取得了有竞争力的性能并产生了合理的响应。另外，在 TGIF-QA 基准测试中，BiST模型比先前的方法表现更好。

Abstract

video-grounded dialogues are very challenging due to (i) the complexity of videos which contain both spatial and temporal variations, and (ii) the complexity of user utterances which query different segments and/or different objects in videos over multiple dialogue turns. However, exis

发现论文，激发创造

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架，它包括一系列Transformer模块，用于解决AVSD任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

DVD：视频语境中多步推理的诊断数据集

本文介绍了 DVD 数据集，使用该数据集分析现有方法并提供有趣的见解，探讨视频对话系统的能力与局限性，并为不同类型的空间时间推理注释详细信息，该数据集明确旨在减少模型可能利用的偏见。

Jan, 2021

视频场景对话的结构化共指图注意力

本文介绍了一个名为SCGA的视频对话系统，该系统使用结构化共指解析器和时空视频推理器来解决视频场景下的共指和推理问题，并利用指针网络动态复制问题的部分来解码答案序列，在AVSD@DSTC7和AVSD@DSTC8数据集以及TVQA数据集上验证了其有效性。

Mar, 2021

AGQA：组合式时空推理的基准测试

本论文针对计算机视觉模型做了一个新的基准，名为Action Genome Question Answering (AGQA)，并提供了3.9M个问题答案对的平衡子集，以最小化偏倚。AGQA引入了多个训练/测试集来测试各种推理能力，包括新颖组合的泛化，间接引用以及更多的组合步骤。这项研究发现，最好的模型仅能比利用语言偏见的非视觉基准优秀一些；并且现有的模型都无法推广到训练中未见过的新颖组合。

Mar, 2021

关于存在于时空中的物体的视频对话交流

本研究提出了一种基于对象中心框架的视频对话系统，称为COST，该系统支持神经推理和关系推理，通过对视频中对象轨迹的分解来支持基于对象的对话状态更新和推理，可实现高水平的语言生成。经DSTC7和DSTC8基准测试，COST具有与最先进技术的竞争力。

Jul, 2022

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频-语言模型：去耦合的空间-时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。

Oct, 2022

VSTAR：一个基于视频的对话数据集，用于具有场景和主题转换的情境语义理解

本文提出了一个基于VSTAR数据集的视频对话理解的基准测试，其中包括场景分割、主题分割和视频对话生成三个基准测试，以验证多模态信息和段落在视频对话理解和生成中的重要性。

May, 2023

揭示隐藏的关联：针对与视频相关的对话进行迭代跟踪和推理

对比传统的视觉问答，基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战，我们提出了一种迭代的跟踪与推理策略，将文本编码器、视觉编码器和生成器相结合。在核心部分，我们的文本编码器具有路径追踪和聚合机制，能够从对话历史中提取对解读提问至关重要的细微差别。同时，我们的视觉编码器采用迭代推理网络，精心设计以从视频中提取和强调关键的视觉标记，增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器，将这些丰富的信息整合在一起，生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。

Oct, 2023