如何进行细粒度行为理解：利用伪副词

CVPRMar, 2022

如何进行细粒度行为理解：利用伪副词

How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs

Hazel Doughty, Cees G. M. Snoek

TL;DR本研究提出一种半监督学习方法来识别动词的副词，用于了解不同行为之间微小的差异，具有很强的实证效果。

Abstract

We aim to understand how actions are performed and identify subtle differences, such as 'fold firmly' vs. 'fold gently'. To this end, we propose a method which recognizes adverbs across different actions. However, such fine-grained annotations are difficult to obtain and their long-tailed nature makes it challenging to recognize adverbs in rare action-adverb

adverb recognition fine-grained actions semi-supervised learning video retrieval datasets long-tailed distribution

发现论文，激发创造

动作修饰语：从教学视频中学习副词

通过伴随的叙述语的弱监督学习，提出了一种学习广告副词表示的方法，使用缩放点积注意力从指导视频中学习，并联合学习广告副词作为反演变换。实验结果表明，该方法在视频到副词检索方面的表现优于所有基线。

Dec, 2019

利用组合副词 - 动作嵌入进行视频副词检索

在视频的细粒度理解中，我们提出了一个视频 - 副词检索的框架，通过在联合嵌入空间中将视频嵌入与其匹配的组成副词 - 动作文本嵌入进行对齐。我们的方法在视频 - 副词检索的五个最新基准上实现了最新的性能，同时引入了基于 MSR-VTT Adverbs 和 ActivityNet Adverbs 数据集子集的未见副词 - 动作组合的视频 - 副词检索基准，我们的框架在将副词从视频中检索出未见的副词 - 动作组合的泛化任务上优于所有先前的工作。

Sep, 2023

通过测量动词 - 副词文本关系学习动作变化

本研究旨在预测视频中动作的副词，将问题转化为回归任务。作者通过测量动词和副词之间的文本关系，生成回归目标，并收集了一个新的高质量数据集：Adverbs in Recipes，评估了该方法并取得了优异的结果。

Mar, 2023

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

基于层级原子动作的细粒度视频弱监督时序动作检测

本文提出一种弱监督的方法来检测细粒度视频动作，通过自我监督聚类获取可重复和自动发现的原子动作集合，并结合语义标签层次将原子动作映射到细粒度和粗粒度行动标签，最终构建了四个层次的视频可视化表示层次，在两个大型数据集上实验表明该方法在细粒度动作检测方面取得了最优性能。

Jul, 2022

FineGym：一种用于精细行为理解的层次视频数据集

本研究基于体操比赛视频开发了 FineGym 数据集，提供了具有三层语义层次的动作和子动作的时间标注，挑战了运动分析中的行为识别和区分问题。

Apr, 2020

粗细选取：无需标签识别动作终止状态

我们研究了在图像中识别动作的结束状态的问题，重点是预测切割的粗细，通过合成训练数据的方法进行数据增广，使用基于 UNet 的模型进行训练，并且成功地识别了切割动作的结束状态，展示了模型在训练和测试之间的领域转化，并且对未知对象具有良好的泛化性。

May, 2024

一种通过姿势引导的粗到细框架进行部件级动作解析的方法

该研究提出了一种用于行动识别的粗到细框架，旨在预测视频级别的行动，并识别视频中每个人体部分的帧级细粒度操作或交互，通过 Kinetics-TPS 的全面实验，该框架取得了最先进的性能，在 31.10％的 ROC 得分上优于现有方法。

Mar, 2022

多种词性嵌入实现细粒度动作检索

该研究通过在视频配文中分离词性来丰富嵌入空间，提出了一种新的跨模态细粒度行为检索方法，同时在 EPIC 和 MSR-VTT 数据集上展示了比基准方法更好的结果。

Aug, 2019

视频剪辑中对象行为的推理与副词类型识别

通过从原始视频剪辑中提取物体行为，设计了一个新的框架，通过对这些提取的事实进行推理，识别出剪辑对应的副词类型，实验证明我们提出的方法在符号性视频处理方面表现优异。

Jul, 2023