神经符号化视频搜索
本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。
Jun, 2021
该研究介绍了一种新的测试数据集 TiM,用于评估基于大型语言模型的方法在视频推理中的表现,并提出了 Face-Enhanced Viper of Role Interactions(FEVoRI)和 Context Query Reduction(ConQueR)方法以提高性能。
Jun, 2024
提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022
为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度,我们提出了 VideoCOT 的新研究方向,旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集,其中包含各种现实生活视频和场景描述,以及两个新的视频推理任务:视频填充和场景预测,评估了各种视觉语言模型在 VIP 上的表现,证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。
May, 2023
为了提高视频检索的性能,我们提出了一种名为 ViSERN 的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
本文提出了解释性时间推理的首个任务,即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测,预测事件在未来时间戳上的发生,并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略,提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA,该方法在时间预测和解释方面取得了最先进的性能。
Oct, 2023
本文提出了一种灵活的多粒度时间聚合框架,用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测,并在 Breakfast,50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果,且兼容于视频分割和动作识别。
Jun, 2020
该研究提出了一种针对实际视频问答任务的神经符号框架(NS-VideoQA),通过引入场景解析网络(SPN)和符号推理机(SRM),实现了对复合时空问题的高效推理和回答能力的提升。
Apr, 2024
VideoTree 是一种用于视频理解的查询自适应和分层框架,利用大型语言模型的推理能力,通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比,VideoTree 在 EgoSchema、NExT-QA 和 IntentQA 基准上分别实现了 7.0%、2.2% 和 2.7% 的准确度提升,并减少了 40% 的推理时间。
May, 2024
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021