神经符号化视频搜索

Mar, 2024

Neuro-Symbolic Video Search

Minkyu Choi, Harsh Goel, Mohammad Omama, Yunhao Yang, Sahil Shah...

TL;DR使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Abstract

The unprecedented surge in video data production in recent years necessitates efficient tools to extract meaningful frames from videos for downstream tasks. long-term temporal reasoning is a key desideratum for <

video data production frame retrieval systems long-term temporal reasoning semantic understanding temporal logic

发现论文，激发创造

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

探讨大型语言模型在电影中的视频推理能力

该研究介绍了一种新的测试数据集 TiM，用于评估基于大型语言模型的方法在视频推理中的表现，并提出了 Face-Enhanced Viper of Role Interactions（FEVoRI）和 Context Query Reduction（ConQueR）方法以提高性能。

Jun, 2024

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

逐帧思考：使用视频填充和预测评估视频思维链

为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度，我们提出了 VideoCOT 的新研究方向，旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集，其中包含各种现实生活视频和场景描述，以及两个新的视频推理任务：视频填充和场景预测，评估了各种视觉语言模型在 VIP 上的表现，证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。

May, 2023

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020

回到未来：面向大型语言模型的可解释性时间推理

本文提出了解释性时间推理的首个任务，即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测，预测事件在未来时间戳上的发生，并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略，提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA，该方法在时间预测和解释方面取得了最先进的性能。

Oct, 2023

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020

神经符号化视频问答：为现实世界视频问答学习组合的时空推理

该研究提出了一种针对实际视频问答任务的神经符号框架（NS-VideoQA），通过引入场景解析网络（SPN）和符号推理机（SRM），实现了对复合时空问题的高效推理和回答能力的提升。

Apr, 2024

VideoTree：基于自适应树的视频表示方法用于长视频的 LLM 推理

VideoTree 是一种用于视频理解的查询自适应和分层框架，利用大型语言模型的推理能力，通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比，VideoTree 在 EgoSchema、NExT-QA 和 IntentQA 基准上分别实现了 7.0%、2.2% 和 2.7% 的准确度提升，并减少了 40% 的推理时间。

May, 2024

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021