MSG-BART: 视频情景增强的多粒度编码器-解码器语言模型用于基于视频的对话生成

Sep, 2023

MSG-BART: 视频情景增强的多粒度编码器-解码器语言模型用于基于视频的对话生成

MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder Language Model for Video-grounded Dialogue Generation

Hongcheng Liu, Zhe Chen, Hui Li, Pingjie Wang, Yanfeng Wang...

TL;DR提出了一种名为MSG-BART的新方法，通过将多粒度时空场景图集成到编码器-解码器预训练语言模型中，增强了视频信息的整合，改进了整体感知和目标推理能力，进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验，表明MSG-BART相比一系列最先进的方法具有显著的优势。

Abstract

Generating dialogue grounded in videos requires a high level of understanding and reasoning about the visual scenes in the videos. However, existing large visual-language models are not effective due to their lat

发现论文，激发创造

用于端到端视频对话系统的多模态Transformer网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在DSTC7上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架，它包括一系列Transformer模块，用于解决AVSD任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

BiST: 视频对话的双向时空推理

提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架，名为Bi-directional Spatio-Temporal Learning（BiST）。结果表明，BiST在视频段落检索（AVSD）基准测试中取得了有竞争力的性能并产生了合理的响应。另外，在 TGIF-QA 基准测试中，BiST模型比先前的方法表现更好。

Oct, 2020

OpenViDial：一个包含视觉背景的大规模开放域对话数据集

本文提出了一个大规模多模态对话数据集OpenViDial，并基于该数据集提出了一族多种编码器-解码器模型，使用了文本和视觉上下文。结果表明，多模态特征的整合可以显著提高对话生成的质量，是实现大规模多模态对话学习的重要一步。

Dec, 2020

视频场景对话的结构化共指图注意力

本文介绍了一个名为SCGA的视频对话系统，该系统使用结构化共指解析器和时空视频推理器来解决视频场景下的共指和推理问题，并利用指针网络动态复制问题的部分来解码答案序列，在AVSD@DSTC7和AVSD@DSTC8数据集以及TVQA数据集上验证了其有效性。

Mar, 2021

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频-语言模型：去耦合的空间-时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。

Oct, 2022

VSTAR：一个基于视频的对话数据集，用于具有场景和主题转换的情境语义理解

本文提出了一个基于VSTAR数据集的视频对话理解的基准测试，其中包括场景分割、主题分割和视频对话生成三个基准测试，以验证多模态信息和段落在视频对话理解和生成中的重要性。

May, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

揭示隐藏的关联：针对与视频相关的对话进行迭代跟踪和推理

对比传统的视觉问答，基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战，我们提出了一种迭代的跟踪与推理策略，将文本编码器、视觉编码器和生成器相结合。在核心部分，我们的文本编码器具有路径追踪和聚合机制，能够从对话历史中提取对解读提问至关重要的细微差别。同时，我们的视觉编码器采用迭代推理网络，精心设计以从视频中提取和强调关键的视觉标记，增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器，将这些丰富的信息整合在一起，生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。

Oct, 2023