从未修剪的网络视频中学习对象状态和状态修改动作寻找变化

CVPRMar, 2022

从未修剪的网络视频中学习对象状态和状态修改动作寻找变化

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos

Tomáš Souček, Jean-Baptiste Alayrac, Antoine Miech, Ivan Laptev, Josef Sivic

TL;DR本文提出一种自我监督的模型，能够在长视频中联合学习目标物体的状态（例如，空杯子和满杯子）及其相应的状态变化行为（如 “倒咖啡”），并针对噪声数据和未筛选的视频数据分别采用噪声自适应加权模块和新的视频数据集进行监督训练，并在目标动作和物体状态识别方面都实现了相当大的进步。

Abstract

Human actions often induce changes of object states such as "cutting an apple", "cleaning shoes" or "pouring coffee". In this paper, we seek to temporally localize object states (e.g. "empty" and "full" cup) toge

object states state-modifying actions self-supervised model noise adaptive weighting module video dataset

发现论文，激发创造

物体状态和操作行为的联合发现

该研究提出一个联合模型，通过视频分析自动发现对象状态和相关的操作行为，模型使用判别聚类成本和约束来学习识别、定位对象状态和对它进行操作的动作，并且不需要额外的监督。通过将对象状态发现与操作识别相结合，取得了良好的实验效果。

Feb, 2017

通过大型语言模型从动作中学习对象状态

通过使用大型语言模型，我们提出了一种从指导视频中的动作信息中提取物体状态信息的方法，并使用所生成的伪标签对模型进行训练，从而明确从动作中提取出物体状态信息的有效性。

May, 2024

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

GenHowTo: 从教学视频中学习生成动作和状态转换

生成具有时间一致性和物理可行性的行为和物体状态转换的图像，利用视频数据集和条件扩散模型 GenHowTo，在各种对象和动作上展示出优秀的性能。

Dec, 2023

粗细选取：无需标签识别动作终止状态

我们研究了在图像中识别动作的结束状态的问题，重点是预测切割的粗细，通过合成训练数据的方法进行数据增广，使用基于 UNet 的模型进行训练，并且成功地识别了切割动作的结束状态，展示了模型在训练和测试之间的领域转化，并且对未知对象具有良好的泛化性。

May, 2024

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

非修剪序列中无监督行为学习的联合视觉 - 时间嵌入

本文提出了一种基于视觉和时间嵌入空间的非监督学习方法，在不需要手动注释的情况下，通过连续的视频帧中存在的视觉线索，成功地检测到相关的行动群簇，并且适用于时间分割任务。

Jan, 2020

从状态转换中识别操纵行为

本文研究利用物体状态转换来识别操作行为，提出了一种基于状态转换矩阵的操作识别方法，并在 EPIC 厨房动作识别挑战上取得了良好的结果。

Jun, 2019