利用预训练生成语言模型的视频对话

Jun, 2020

利用预训练生成语言模型的视频对话

Video-Grounded Dialogues with Pretrained Generation Language Models

Hung Le, Steven C. H. Hoi

TL;DR本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Abstract

pre-trained language models have shown remarkable success in improving various downstream NLP tasks due to their ability to capture dependencies in textual data and generate natural responses. In this paper, we leverage the power of →

发现论文，激发创造

用于端到端视频对话系统的多模态Transformer网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在DSTC7上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

基于预训练语言模型的任务导向对话系统研究——以GPT-2为例

本研究探讨了数据稀缺对于多领域任务导向对话系统快速发展的限制，并提出了一种基于TransferTransfo和生成模型预训练的对话模型，并在MultiWOZ数据集上进行了验证，结果显示该模型可以有效地绕过显式策略和语言生成模块来实现对于任务的导向和推理。该方法有望缓解数据稀缺问题，进而支持构建更具吸引力和更流畅的任务导向的对话代理人。

Jul, 2019

视觉对话的大规模预训练: 一个简单的最先进基准线

本文提出了一种基于ViLBERT的方法，该方法采用与Visual Dialog相关的视觉语言数据集的预训练，随后转移到Visual Dialog的训练上。文中还发现，在Visual Dialog中使用密集注释进行微调，可以提高NDCG，但会降低MRR。

Dec, 2019

以语言模型为少样本学习者的任务导向式对话系统

本文探讨自然语言理解、对话状态跟踪、对话策略和自然语言生成这四个模块在少数据样本下学习的挑战，并评估了使用自然语言生成模型进行少样本迁移学习的效果和局限性，为未来研究提供了启示。

Aug, 2020

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

VSTAR：一个基于视频的对话数据集，用于具有场景和主题转换的情境语义理解

本文提出了一个基于VSTAR数据集的视频对话理解的基准测试，其中包括场景分割、主题分割和视频对话生成三个基准测试，以验证多模态信息和段落在视频对话理解和生成中的重要性。

May, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

揭示隐藏的关联：针对与视频相关的对话进行迭代跟踪和推理

对比传统的视觉问答，基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战，我们提出了一种迭代的跟踪与推理策略，将文本编码器、视觉编码器和生成器相结合。在核心部分，我们的文本编码器具有路径追踪和聚合机制，能够从对话历史中提取对解读提问至关重要的细微差别。同时，我们的视觉编码器采用迭代推理网络，精心设计以从视频中提取和强调关键的视觉标记，增强视觉理解的深度。通过使用预训练的GPT-2模型作为响应生成器，将这些丰富的信息整合在一起，生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。

Oct, 2023

MSG-BART: 视频情景增强的多粒度编码器-解码器语言模型用于基于视频的对话生成

提出了一种名为MSG-BART的新方法，通过将多粒度时空场景图集成到编码器-解码器预训练语言模型中，增强了视频信息的整合，改进了整体感知和目标推理能力，进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验，表明MSG-BART相比一系列最先进的方法具有显著的优势。

Sep, 2023

你需要的只是基础吗？双重时间基础用于视频对话

本研究针对视频对话生成中的视频内容理解和对话历史的时间细微差别进行探讨，填补了以往研究在时间动态上的空白。本文提出的双重时间基础视频对话模型（DTGVD）结合了当前两种主要研究方法的优势，通过预测对话特定的时间区域来过滤视频内容，并在视频和对话上下文中具有更强的响应基础。研究结果显示，该模型在视频与对话动态的对齐方面具有显著提升。

Oct, 2024