通过多模态合作对话代理描述未见过的视频
该研究提出了一种新方法,通过将对话汇总成文本描述的方式,摆脱人工制作的来源,以理解整个故事,从而使得视频问答系统在不使用特定问题的人类注释或人工情节概述的情况下在 KnowIT VQA 数据集上明显胜过现有技术,并且甚至胜过从未观看过整个剧集的人类评估者。
Mar, 2021
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
Q-ViD 是一种简单的视频问答方法,通过使用一个单一的指令感知开放式视觉语言模型(InstructBLIP)来处理视频问答问题,生成视频帧描述,并结合一个大型语言模型(LLM)进行多项选择问答,取得了与当前最先进模型相媲美甚至更高的性能。
Feb, 2024
利用一个新型的基于代理的系统,以长篇视频理解为挑战,通过交互性推理和规划来处理长时间的多模式序列,同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题,视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中,VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%,仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平,突显了基于代理的方法在提升长篇视频理解方面的潜力。
Mar, 2024
本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法,通过协作游戏中的自然语言对话,演示了 'visual' 对话代理具有自主创建基于视觉属性的语言和沟通的能力,并发现强化学习有助于代理人的团队合作,促进信息交流和提高效率。
Mar, 2017
通过情节对话、生成视频场景描述和弱监督获取外部知识,ROL 模型处理任务,使用变压器编码和模态权重机制,平衡不同来源的信息。通过对知识型视频故事问答的评估,ROL 模型在 KnowIT VQA 和 TVQA + 两个挑战性问题数据集上表现出卓越的效果,是一种有前途的方法。
Jul, 2020
利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题,在多个长期视觉理解基准测试中表现出色,相比基准模型,NExT-QA 平均提升 6.6%,EgoSchema 平均提升 26.0%,缩小了开源模型与私有对应模型之间的差距。
Mar, 2024
通过使用大量卡通视频学习,我们展示了 AI 代理执行视频故事问答的可能性。我们的深度嵌入记忆网络 (DEMN) 模型使用观测数据的潜在嵌入空间重构场景 - 对话视频流中的故事,并将视频故事存储在长期记忆组件中。对于给定的问题,基于 LSTM 的注意力模型使用长期记忆来召回包含关键信息的特定单词的最佳问题 - 故事 - 答案三元组。我们在一个新的儿童卡通视频系列 Pororo 的 QA 数据集上训练了 DEMN,并且实验结果表明 DEMN 在 QA 上优于其他模型,这主要得益于 1)利用潜在嵌入对场景 - 对话组合形式的视频故事进行重构,2)使用了注意力。DEMN 还在 MovieQA 基准测试上实现了最先进的成果。
Jul, 2017
通过辅助目标激励 Qbot 多样性提问以减少重复,从而达到更好的视觉对话效果,在保证与前期研究同等图像相关性的同时,大大提升了对话的多样性、一致性、流畅度和细节。
Sep, 2019