利用图链接预测探索生活Vlog中的人类行为共现

Sep, 2023

利用图链接预测探索生活Vlog中的人类行为共现

Human Action Co-occurrence in Lifestyle Vlogs using Graph Link Prediction

Oana Ignat, Santiago Castro, Weiji Li, Rada Mihalcea

TL;DR自动人类行为共现识别任务介绍，通过视觉和文本信息，利用ACE数据集和图链接预测模型自动推断两个动作是否同时发生，在不同数据领域中学习图表示，并捕捉到不同的关联信息。

Abstract

We introduce the task of automatic human action co-occurrence identification, i.e., determine whether two human actions can co-occur in the same interval of time. We create and make publicly available the ACE (Action Co-occurrencE) dataset, consisting of a large graph of ~12k co-occurr

发现论文，激发创造

从生活 Vlogs 到日常互动

本文提出从大量互动丰富的视频数据开始，对人类基本交互的理解进行研究，通过对手部进行分析和注释，获得了更大规模、更丰富多样化的数据，并展示了语义物体接触识别、帧级非语义接触状态识别和手部未来预测等任务的实现。

Dec, 2017

基于动态图模块的对象交互建模在活动识别中的应用

本文提出了基于动态隐藏图模块的视频动作识别方法，该模块既可以捕捉多对象间的外观/运动变化，又能捕捉他们的时空关系，该方法具有处理流式视频数据的能力，并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。

Dec, 2018

生活方式视频中可见行为的识别

本研究关注于在线视频中可见的人类行为的识别，提出一种多模态算法，利用视觉和语言线索自动推断视频中哪些行为可见，并通过人工标注数据集进行验证，结果表明该算法的表现优于单一模态算法。

Jun, 2019

动作基因组:将动作视为时空场景图的组合

介绍了一种将行为分解为时空场景图的表示法，通过将场景图作为时空特征库引入现有的行为识别模型中，取得了更好的表现，同时也说明了分层事件分解的效用，从而实现了少样本行为识别，并在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。

Dec, 2019

家庭行为基因组：合作组合动作理解

本研究介绍了Home Action Genome (HOMAGE)数据集，并使用 Cooperative Compositional Action Understanding (CCAU)框架进行多个视图和多种数据模态下的动作识别。该方法通过学习组合动作元素以提高 Few-shot Action recognition 的表现。

May, 2021

ACP++：人-物互动检测的动作共现先验

本文主要研究人和物体之间的交互检测问题，解决了数据集不平衡带来的影响，通过动作共现矩阵来学习先验知识，进而提高训练效果。

Sep, 2021

提取快速和慢速动作：包含时间间隔信息的用户操作嵌入

本文提出了一种分析具有时间间隔信息的用户行为的统一方法，通过在低维度空间中嵌入用户的行动序列和时间间隔来为用户行为建模，并成功证明了这种方法在实际中的有效性和可解释性。

Jun, 2022

动作场景图：针对自视角视频的长篇理解

我们提出了Egocentric Action Scene Graphs (EASGs)，一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述，EASGs扩展了egocentric视频的标准手动注释表示。通过一种新的注释过程，我们通过添加手动标注的Egocentric Action Scene Graphs扩展了Ego4D数据集，为长篇理解的egocentric视频提供了丰富的注释。因此，我们定义了EASG生成任务并提供了一种基准方法，建立了初步的基准。针对两个下游任务（egocentric action anticipation和egocentric activity summarization）的实验突出了EASGs在长篇egocentric视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。

Dec, 2023

TikTokActions: 基于TikTok的视频数据集用于人体动作识别

这篇研究论文介绍了一个有用的 TikTok 视频数据集，可用于公众使用，并揭示了增加预训练数据集大小对基于视频的基础模型的边际效益。

Feb, 2024

MMAD：视频中的多标签微动作检测

该论文探讨了人类微动作在社交互动中的非语言沟通的重要性，介绍了微动作的概念，并提出了一个新的任务和数据集，旨在对复杂的人类微动作进行详细分析和研究。

Jul, 2024