Action2Vec: 一种跨模态嵌入式行为学习方法

Jan, 2019

Action2Vec: 一种跨模态嵌入式行为学习方法

Action2Vec: A Crossmodal Embedding Approach to Action Learning

Meera Hahn, Andrew Silva, James M. Rehg

TL;DR本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec，该方法将语言线索与视频剪辑的时空特征结合起来，并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入，将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试，我们评价了 Action2Vec 模型，并在三个标准数据集上获得了最先进的结果。同时，我们是首个将动词和动作视频组合成联合 embedding 空间，并在分布语义上进行全面评估的研究。

Abstract

We describe a novel cross-modal embedding space for actions, named action2vec, which combines linguistic cues from class labels with spatio-temporal features derived from video clips. Our approach uses a

cross-modal embedding action2vec hierarchical recurrent network zero shot action recognition distributional semantics

发现论文，激发创造

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

Objects2action: 不依赖任何视频样例的动作分类与定位

本文提出了一种基于对象语义嵌入和零样本学习的动作识别方法，实现了对未知动作的识别和定位。

Oct, 2015

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

多种词性嵌入实现细粒度动作检索

该研究通过在视频配文中分离词性来丰富嵌入空间，提出了一种新的跨模态细粒度行为检索方法，同时在 EPIC 和 MSR-VTT 数据集上展示了比基准方法更好的结果。

Aug, 2019

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

用于零样本定位和动作分类的空间感知物体嵌入

本研究旨在通过空间感知物体嵌入实现视频中人类动作的零样本定位和分类，以提高全局对象分类得分并实现新的时空操作检索方案。实验证明，我们的方法在四个当代行动视频数据集中具有竞争优势。

Jul, 2017

通过视频注意力和时间上下文进行自我中心动作识别

这篇文章介绍了三个方法：动作识别、动词和名词分类以及空间 - 时间视频注意力模型来解决小动态物体、复杂手部物体交互和遮挡等挑战。

Jul, 2020

基于语言的动作概念空间改进视频自监督学习

使用自监督学习方法，对图像 CLIP 模型进行语言约束的调整，以适应视频领域，提高三个行动识别基准测试的零样本和线性探测性能。

Jul, 2023

非修剪序列中无监督行为学习的联合视觉 - 时间嵌入

本文提出了一种基于视觉和时间嵌入空间的非监督学习方法，在不需要手动注释的情况下，通过连续的视频帧中存在的视觉线索，成功地检测到相关的行动群簇，并且适用于时间分割任务。

Jan, 2020

利用组合副词 - 动作嵌入进行视频副词检索

在视频的细粒度理解中，我们提出了一个视频 - 副词检索的框架，通过在联合嵌入空间中将视频嵌入与其匹配的组成副词 - 动作文本嵌入进行对齐。我们的方法在视频 - 副词检索的五个最新基准上实现了最新的性能，同时引入了基于 MSR-VTT Adverbs 和 ActivityNet Adverbs 数据集子集的未见副词 - 动作组合的视频 - 副词检索基准，我们的框架在将副词从视频中检索出未见的副词 - 动作组合的泛化任务上优于所有先前的工作。

Sep, 2023