利用图链接预测探索生活Vlog中的人类行为共现
本文提出从大量互动丰富的视频数据开始,对人类基本交互的理解进行研究,通过对手部进行分析和注释,获得了更大规模、更丰富多样化的数据,并展示了语义物体接触识别、帧级非语义接触状态识别和手部未来预测等任务的实现。
Dec, 2017
本文提出了基于动态隐藏图模块的视频动作识别方法,该模块既可以捕捉多对象间的外观/运动变化,又能捕捉他们的时空关系,该方法具有处理流式视频数据的能力,并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。
Dec, 2018
本研究关注于在线视频中可见的人类行为的识别,提出一种多模态算法,利用视觉和语言线索自动推断视频中哪些行为可见,并通过人工标注数据集进行验证,结果表明该算法的表现优于单一模态算法。
Jun, 2019
介绍了一种将行为分解为时空场景图的表示法,通过将场景图作为时空特征库引入现有的行为识别模型中,取得了更好的表现,同时也说明了分层事件分解的效用,从而实现了少样本行为识别,并在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。
Dec, 2019
本研究介绍了Home Action Genome (HOMAGE)数据集,并使用 Cooperative Compositional Action Understanding (CCAU)框架进行多个视图和多种数据模态下的动作识别。该方法通过学习组合动作元素以提高 Few-shot Action recognition 的表现。
May, 2021
本文提出了一种分析具有时间间隔信息的用户行为的统一方法,通过在低维度空间中嵌入用户的行动序列和时间间隔来为用户行为建模,并成功证明了这种方法在实际中的有效性和可解释性。
Jun, 2022
我们提出了Egocentric Action Scene Graphs (EASGs),一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述,EASGs扩展了egocentric视频的标准手动注释表示。通过一种新的注释过程,我们通过添加手动标注的Egocentric Action Scene Graphs扩展了Ego4D数据集,为长篇理解的egocentric视频提供了丰富的注释。因此,我们定义了EASG生成任务并提供了一种基准方法,建立了初步的基准。针对两个下游任务(egocentric action anticipation和egocentric activity summarization)的实验突出了EASGs在长篇egocentric视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。
Dec, 2023
这篇研究论文介绍了一个有用的 TikTok 视频数据集,可用于公众使用,并揭示了增加预训练数据集大小对基于视频的基础模型的边际效益。
Feb, 2024
该论文探讨了人类微动作在社交互动中的非语言沟通的重要性,介绍了微动作的概念,并提出了一个新的任务和数据集,旨在对复杂的人类微动作进行详细分析和研究。
Jul, 2024