自我中心的文本 - 视频检索挑战概述

CVPRJun, 2023

自我中心的文本 - 视频检索挑战概述

An Overview of Challenges in Egocentric Text-Video Retrieval

Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim

TL;DR讨论了在文本 - 视频检索中不同来源导致的偏差，特别是帧长度偏差，并提出了一种简单方法来解决这种偏差，并得到了可喜的增长，最后提出了未来研究的方向。

Abstract

text-video retrieval contains various challenges, including biases coming from diverse sources. We highlight some of them supported by illustrations to open a discussion. Besides, we address one of the

text-video retrieval biases frame length bias research challenges future directions

发现论文，激发创造

通过因果干预方法消除文本 - 视频检索中的帧长度偏见

改进和开发新的网络架构是文本 - 视频检索的研究热点。然而，现有的方法可能存在学习和推理偏差问题，本研究首次尝试探索修剪视频剪辑的训练和测试集之间的时间偏差，并提出因果去偏方法，通过大量实验验证了该方法的有效性。

Sep, 2023

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

基于时间连接序列的自我中心视频描述

本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Apr, 2017

面向语义快进和稳定的自我中心视频

本文提出了一种从自我视角视频中提取语义信息来汇总并稳定视频的方法，并介绍了一个带有多个语义标签的视频数据集和一种新的自我视角视频平滑评估度量标准。

Aug, 2017

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

文本到视频检索的框架选择的实证研究

为了有效地选择文本到视频检索过程中最具代表性的帧并提高检索效率，该论文通过对现有方法的分类和分析，提出了两种新的帧选择方法，并从多个 TVR 基准测试得出结论：适当的帧选择可以显著提高检索效果。

Nov, 2023

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020

DrVideo: 基于文档检索的长视频理解

我们提出了 DrVideo，它是一个基于文档检索的系统，用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务，以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息，然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据，并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法，在 EgoSchema 基准测试上提高了 3.8％的准确性，在 MovieChat-1K break 模式上提高了 17.9％，在 MovieChat-1K 全球模式上提高了 38.0％，在 LLama-Vid QA 数据集上提高了 30.2％（超过 60 分钟）。

Jun, 2024

用 FIRE 对抗火灾：评估文本到视频检索基准的有效性

通过修正误标的负样本，我们评测了三种模型在两个标准测试集上的表现，发现在最佳模型上，修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和，同时我们推荐以样本抽样方式缓解标注数据成本，对未来的 text-to-video retrieval 基准测试提出了建议。

Oct, 2022