BiST: 视频对话的双向时空推理
该研究针对视频问答这一任务,提出增加bounding boxes数据集,以此为基础构建了STAGE框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架,它包括一系列Transformer模块,用于解决AVSD任务中的多模态学习和推理,并提出了一种新型的动态场景图表示学习方法。实验结果表明,该模型在所有度量标准上均取得了最先进的性能。
Jul, 2020
本文介绍了 DVD 数据集,使用该数据集分析现有方法并提供有趣的见解,探讨视频对话系统的能力与局限性,并为不同类型的空间时间推理注释详细信息,该数据集明确旨在减少模型可能利用的偏见。
Jan, 2021
本文介绍了一个名为SCGA的视频对话系统,该系统使用结构化共指解析器和时空视频推理器来解决视频场景下的共指和推理问题,并利用指针网络动态复制问题的部分来解码答案序列,在AVSD@DSTC7和AVSD@DSTC8数据集以及TVQA数据集上验证了其有效性。
Mar, 2021
本论文针对计算机视觉模型做了一个新的基准,名为Action Genome Question Answering (AGQA),并提供了3.9M个问题答案对的平衡子集,以最小化偏倚。AGQA引入了多个训练/测试集来测试各种推理能力,包括新颖组合的泛化,间接引用以及更多的组合步骤。这项研究发现,最好的模型仅能比利用语言偏见的非视觉基准优秀一些;并且现有的模型都无法推广到训练中未见过的新颖组合。
Mar, 2021
本研究提出了一种基于对象中心框架的视频对话系统,称为COST,该系统支持神经推理和关系推理,通过对视频中对象轨迹的分解来支持基于对象的对话状态更新和推理,可实现高水平的语言生成。经DSTC7和DSTC8基准测试,COST具有与最先进技术的竞争力。
Jul, 2022
该论文提出了一种新的视频-语言模型:去耦合的空间-时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。
Oct, 2022
本文提出了一个基于VSTAR数据集的视频对话理解的基准测试,其中包括场景分割、主题分割和视频对话生成三个基准测试,以验证多模态信息和段落在视频对话理解和生成中的重要性。
May, 2023
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023