- i-SRT: 视频的大型多模态模型对齐通过迭代式自我回顾判断
提出一种名为 i-SRT(iterative self-retrospective judgment)的新方法,通过迭代地回顾和评估已生成的内容和偏好,改善文本和视觉模态之间的对齐,减少冗长和无关的回答,增强内容的相关性,并在各种视频问答基 - 基于物理先验的组合式 4D 动态场景理解与视频问答
该研究提出了一个基于视频的问答数据集 SuperCLEVR-Physics,专注于对象的动力学特性,通过显式的 4D 场景表示和神经符号推理,展示了 NS-4Dynamics 在理解动力学属性以及未来预测和反事实推理方面的效果,该模型在重建 - 编码和控制长篇视频问答的全球语义
通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA - VideoQA-SC:用于视频问答的自适应语义交流
本文提出了一种面向视频问答任务的端到端语义通信系统 VideoQA-SC,通过有效的视频语义提取和高效稳健的语义传输,绕过接收端的视频重构,实现了在嘈杂或衰落无线信道上直接完成视频问答任务,并实验证明在广泛的信道条件和带宽限制下,Video - CVPRMoReVQA: 探索视频问答的模块化推理模型
通过分解为多阶段的模块化推理框架来解决视频问答(videoQA)任务,我们的方法 MoReVQA 通过事件解析器、定位阶段、最终推理阶段和外部存储器在标准视频问答基准测试中取得了最先进的结果,并在相关任务(基于视频的问答、段落字幕生成)上得 - CVPRVideoDistill: 视频问答的语言感知视觉蒸馏
通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架 VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。
- 零样本视频问答的问题引导视觉描述
Q-ViD 是一种简单的视频问答方法,通过使用一个单一的指令感知开放式视觉语言模型(InstructBLIP)来处理视频问答问题,生成视频帧描述,并结合一个大型语言模型(LLM)进行多项选择问答,取得了与当前最先进模型相媲美甚至更高的性能。
- AAAIYTCommentQA: 教学视频中的视频问题可回答性
展示了 YTCommentQA 数据集,该数据集包含了 YouTube 上自然生成的问题,按照其可回答性和回答所需的模态进行分类,实验结果突出了在视频推理中视觉和脚本信息的综合作用。
- 基于大型多模型的弱监督高斯对比定位的视频问答
提出了一种新颖的弱监督框架,用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答,通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻,并利用高斯对比基础模块学习视频的时间结构,将问题关键帧作为正样本作为大型多模态模型的视 - AAAISTAIR: 空间 - 时序推理中间结果可审计的视频问答方法
提出了 STAIR,一个用于视频问答的具有可审计中间结果的时空推理模型。STAIR 是一个神经模块网络,包含一个程序生成器和一组轻量级神经模块,用于完成视频问答的基本子任务,并引入了中间监督来提高准确性。
- 从确定到不确定的回答:针对视频问答的不确定性感知课程学习
通过在课程学习(CL)框架中逐步训练模型,将 VideoQA 引入其中,并通过不同类型的不确定性引导困难度的动态调整,本论文提出了增强模型泛化能力的可能性,并通过综合实验验证了该方法的有效性。
- 跨模态事件相关的视频问答中的推理
通过引入密集描述模态作为辅助信息,提出了一种新颖的端到端可训练模型,Event-Correlated Graph Neural Networks(EC-GNNs),以从三种模态(描述、视频和问题)中执行跨模态推理,并通过多步推理收集问题导向 - Vista-LLaMA: 基于视觉标记等距离的可靠视频叙述器
对于大文本的视觉问题,当前的方法存在产生相关文本的概率较高的问题。本文提出了 Vista-LLaMA 框架,采用了一种新的注意机制,通过保持视觉和文本间的一致距离,特别在相对距离较长的情况下提高了视觉令牌对于文本生成的影响,从而显著降低了生 - 用于高效长视频问答的基于检索的视频语言模型
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
- 用稀疏输入描述视频问答
在视频问答中,我们使用基于 Gumbel 的可学习选择模块来自适应地选择最佳的输入,以实现对视频及语言任务的数据效率改进。我们的实验证明,即使在高度稀疏的设置下,我们只选取每个视频的 2-4 帧,视频长度仅为总长度的 10%,也仅仅损失了 - AutoEval-Video:一个用于评估开放式视频问答中大型视觉语言模型的自动化基准
我们提出了一个新颖且具有挑战性的基准,AutoEval-Video,以全面评估开放式视频问答中的大规模视觉语言模型。
- EMNLP大型语言模型是视频问答中的时间和因果推理器
通过使用 Flipped-VQA 框架,我们成功应用于 LLaMA-VQA 和其它 LLMs 模型,取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果,并且实验证明 Flipped-VQA 不 - ATM:视频问答的动作时间建模
通过动作时间建模(ATM),在视频问答(VideoQA)中引入了对因果 / 时间推理跨帧的问题,并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明,ATM 在多个 Video - 通过文本理解视频场景:来自基于文本的视频问答的洞察
研究人员广泛研究了视觉和语言领域,发现理解场景需要理解视觉和文字内容,特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集,NewsVideoQA 和 M4-ViteVQA,这两个数据集旨在通过文字内容进行视频问答 - 抗干扰型视觉问答的无干扰嵌入
利用 DRAX 方法进行异质嵌入的去干扰和注意力引导,以提高视觉 - 语言理解任务的效果,经过大量实验证明了该方法在多种方面的能力