FROSTER：冷冻CLIP是开放词汇动作识别的强大教师

Feb, 2024

FROSTER：冷冻CLIP是开放词汇动作识别的强大教师

FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action Recognition

Xiaohu Huang, Hao Zhou, Kun Yao, Kai Han

TL;DRFROSTER是一个有效的开放词汇动作识别框架，通过使用残差特征蒸馏方法，能够确保CLIP保持其泛化能力，并有效适应于动作识别任务，从而在开放词汇动作识别基准数据集上实现了最先进的性能。

Abstract

In this paper, we introduce froster, an effective framework for open-vocabulary action recognition. The clip model has achieved remarkable

发现论文，激发创造

HACS: 人类动作片段与片段数据集，用于识别和时间定位

本文提出了一个新的大规模视频数据集，用于识别和时间定位从Web视频中收集的人类动作，HACS(Human Action Clips and Segments)。我们利用视觉分类器中的共识和分歧来自动挖掘未标记视频中的候选短片段，并由人类标注员进行验证。HACS Clips包含150万个已标注片段，HACS Segments包含139,000个动作片段，涵盖200个类别。该数据集是大规模动作识别基准和时空特征学习的良好来源。

Dec, 2017

SCSampler：用于高效行为识别的视频显著片段采样

本文介绍了一种轻量级的“剪辑采样”模型，可在长视频中高效识别最显著的时间片段，将行动识别的计算成本显著降低，同时提高识别准确性。

Apr, 2019

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉-文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的“预训练、提示和微调”范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

卷积永难逝：单冻结卷积CLIP的开放词汇分割

使用共享的冻结卷积CLIP骨干网络，将当前的两阶段流程大大简化，并显著提高准确性和成本平衡，成为各种开放词汇语义分割数据集中的最新最佳表现。

Aug, 2023

利用更好的架构、优化和数据建立开放式词汇视频CLIP模型

本研究介绍了Open-VCLIP++，它是一个简单而有效的框架，通过最小化修改CLIP来捕捉视频中的时空关系，从而创建一个专门的视频分类器，同时追求泛化性。通过在训练和测试过程中利用权重插值的优势，我们演示了训练Open-VCLIP++等同于零历史数据的持续学习。此外，我们利用大型语言模型生成了细粒度的视频描述，并与视频特征进行了对齐，从而更好地将CLIP应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估，并超过了现有最先进技术的显著水平。我们在UCF、HMDB和Kinetics-600数据集上分别实现了88.1%、58.7%和81.2%的零样本准确率，分别比最佳替代方法高出8.5%、8.2%和12.3%。我们还在MSR-VTT视频文本检索数据集上进行了评估，结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平，并且相比其他方法使用了更少的微调数据。

Oct, 2023

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉-语言模型的调整

本研究呈现了ZEETAD，这是一个基于Transformer和CLIP模块的零样本时间动作检测方法，通过最小程度地更新冻结的CLIP编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从ViL模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023

早期动作识别与动作原型

利用部分观察到的视频和原型表示，我们提出了一种早期行为识别模型，通过训练视频的短片段来预测行为并在多个实际数据集上取得了显著的改进。

Dec, 2023

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP是对CLIP的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

跨领域开放词汇行为识别中基于CLIP的视频学习方法的重新思考

基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限，本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频-文本对齐方法，来应对这一挑战，实验结果验证了我们方法的有效性。

Mar, 2024

DENOISER: 重新思考开放词汇动作识别的鲁棒性

本研究旨在填补 Open-Vocabulary Action Recognition 领域中一个重要研究空白，即通过模拟不同类型的多层噪声来评估现有方法的稳健性，发现它们的稳健性较差。为了解决噪声 OVAR 任务，我们进一步提出了一个新颖的去噪框架，包括生成和判别两个部分。实验证明我们的方法在三个数据集中具有优越的稳健性，并通过逐步优化的方式剖析了每个组件的有效性。

Apr, 2024