SViTT-Ego：一种用于自我中心视频的稀疏视频文本变压器

Jun, 2024

SViTT-Ego：一种用于自我中心视频的稀疏视频文本变压器

SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video

Hector A. Valdez, Kyle Min, Subarna Tripathi

TL;DR通过在 EgoClip 数据集上预训练，采用稀疏自我中心视频文本变换模型 SViTT-Ego，融合了边缘和节点稀疏化，以及友好的自我中心目标 EgoNCE，相对于 LAVILA large，在内部视频 EgoMCQ 上获得了 + 2.8% 的准确度提升，无需额外的数据增强技术，可以在内存有限的设备上预训练。

Abstract

Pretraining egocentric vision-language models has become essential to improving downstream egocentric video-text tasks. These egocentric foundation models commonly use the transformer architecture. The memory foo

egocentric vision-language models transformer architecture sparse egocentric video-text transformer model egoclip dataset egonce

发现论文，激发创造

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

EgoVLPv2: 骨干网络中融合的自我中心视频语言预训练

本文介绍第二代自我中心视频 - 语言预训练 (EgoVLPv2)，通过将跨模态融合直接纳入视频和语言主干网络，学习强大的视频文本表示，并在下游任务中灵活有效地支持不同的任务，并且我们提出的主干融合策略比堆叠额外的融合特定层更轻量化和计算效率更高。

Jul, 2023

2022 年 Ego4D PNR 时序定位挑战赛结构化视频令牌

SViT method proposes StructureViT to improve temporal localization by utilizing object tokens and enforcing frame-clip consistency, achieving a strong performance of 0.656 absolute error on Point of No Return challenge test set.

Jun, 2022

高效自监督视觉 Transformer 模型用于表示学习

本文研究了发展高效的自监督视觉变换器（EsViT）的两种技术，第一，我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性，但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二，我们提出了新的预训练任务区域匹配，允许模型捕捉细粒度区域依赖性，从而显着提高了学习到的视觉表示的质量。我们的结果表明，结合这两种技术，EsViT 在 ImageNet 线性探针评估中达到 81.3％的 top-1，超过以前的艺术水平，吞吐量大约高一个数量级。在转移到下游线性分类任务时，EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取：该 URL。

Jun, 2021

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

EPIC-KITCHENS-100 多实例检索挑战赛 2022 年，自我中心视频语言预训练

本文提出了基于视频 - 语言预训练的解决方案，利用最近发布的 Ego4D 数据集，从预训练数据集、预训练目标和开发集的角度开创了自我中心的视频 - 语言预训练学习，从而获得了优秀的性能表现。

Jul, 2022

记忆巩固实现长时视频理解

利用现有的预训练视频 Transformer，并通过简单的微调来重复利用过去激活衍生的非参数化记忆，从而扩展其上下文到过去，以实现对长视频的优秀学习表现。

Feb, 2024

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021