通过多模态合作对话代理描述未见过的视频

ECCVAug, 2020

通过多模态合作对话代理描述未见过的视频

Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

Ye Zhu, Yu Wu, Yi Yang, Yan Yan

TL;DR该研究介绍了一个名为视频描述的新任务，其中两个多模态合作对话代理的终极目标是一个会话代理基于对话和两个静态帧来描述未见过的视频，为了帮助一个代理更好地描述视频，提出了一个具有动态对话历史更新学习机制的 QA - 合作网络来从一个已经看过整个视频的代理 - A-BOT 转移知识到 - Q-BOT。

Abstract

With the arising concerns for the ai systems provided with direct access to abundant sensitive information, researchers seek to develop more reliable AI with implicit information sources. To this end, in this paper, we introduce a new task called →

ai systems multi-modal cooperative dialog agents video description natural language questions dynamic dialog history update learning mechanism

发现论文，激发创造

视频问答中对话的隐藏宝藏

该研究提出了一种新方法，通过将对话汇总成文本描述的方式，摆脱人工制作的来源，以理解整个故事，从而使得视频问答系统在不使用特定问题的人类注释或人工情节概述的情况下在 KnowIT VQA 数据集上明显胜过现有技术，并且甚至胜过从未观看过整个剧集的人类评估者。

Mar, 2021

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

零样本视频问答的问题引导视觉描述

Q-ViD 是一种简单的视频问答方法，通过使用一个单一的指令感知开放式视觉语言模型（InstructBLIP）来处理视频问答问题，生成视频帧描述，并结合一个大型语言模型（LLM）进行多项选择问答，取得了与当前最先进模型相媲美甚至更高的性能。

Feb, 2024

VideoAgent: 基于大型语言模型的长视频理解

利用一个新型的基于代理的系统，以长篇视频理解为挑战，通过交互性推理和规划来处理长时间的多模式序列，同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题，视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%，仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平，突显了基于代理的方法在提升长篇视频理解方面的潜力。

Mar, 2024

使用深度强化学习学习协作视觉对话代理

本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法，通过协作游戏中的自然语言对话，演示了 'visual' 对话代理具有自主创建基于视觉属性的语言和沟通的能力，并发现强化学习有助于代理人的团队合作，促进信息交流和提高效率。

Mar, 2017

基于知识的视频问答与无监督场景描述

通过情节对话、生成视频场景描述和弱监督获取外部知识，ROL 模型处理任务，使用变压器编码和模态权重机制，平衡不同来源的信息。通过对知识型视频故事问答的评估，ROL 模型在 KnowIT VQA 和 TVQA + 两个挑战性问题数据集上表现出卓越的效果，是一种有前途的方法。

Jul, 2020

VideoAgent：一个增强记忆的多模态视频理解代理

利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题，在多个长期视觉理解基准测试中表现出色，相比基准模型，NExT-QA 平均提升 6.6%，EgoSchema 平均提升 26.0%，缩小了开源模型与私有对应模型之间的差距。

Mar, 2024

DeepStory: 基于深度内嵌记忆网络的视频故事问答

通过使用大量卡通视频学习，我们展示了 AI 代理执行视频故事问答的可能性。我们的深度嵌入记忆网络 (DEMN) 模型使用观测数据的潜在嵌入空间重构场景 - 对话视频流中的故事，并将视频故事存储在长期记忆组件中。对于给定的问题，基于 LSTM 的注意力模型使用长期记忆来召回包含关键信息的特定单词的最佳问题 - 故事 - 答案三元组。我们在一个新的儿童卡通视频系列 Pororo 的 QA 数据集上训练了 DEMN，并且实验结果表明 DEMN 在 QA 上优于其他模型，这主要得益于 1）利用潜在嵌入对场景 - 对话组合形式的视频故事进行重构，2）使用了注意力。DEMN 还在 MovieQA 基准测试上实现了最先进的成果。

Jul, 2017

通过回答不同的问题，改进生成式视觉对话

通过辅助目标激励 Qbot 多样性提问以减少重复，从而达到更好的视觉对话效果，在保证与前期研究同等图像相关性的同时，大大提升了对话的多样性、一致性、流畅度和细节。

Sep, 2019