FHA-Kitchens: 厨房场景下精细手部动作识别的新型数据集

Jun, 2023

FHA-Kitchens: 厨房场景下精细手部动作识别的新型数据集

FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition in Kitchen Scenes

Ting Zhe, Yongqian Li, Jing Zhang, Yong Luo, Han Hu...

TL;DR本文提出了一种 Fine-Grained Hand Action-Kitchen 数据集，并针对这一数据集进行了代表性的行动识别和检测模型测试，提出了相关的应对策略。

Abstract

A typical task in the field of video understanding is hand action recognition, which has a wide range of applications. Existing works either mainly focus on full-body actions, or the defined action categories are relatively coarse-grained. In this paper, we propose FHA-Kitchens, a novel dataset of fine-grained hand actions in →

hand action recognition fine-grained action classes kitchen scenes action triplets domain generalization

发现论文，激发创造

精细动作的实时识别及其手洗数据集

本文提出了一种三流算法用于实时动作识别，并提供了新的手部洗涤视屏数据集，该算法不仅高效准确，而且能够识别极其相似的动作，从而为未来的精细动作识别任务引入了新的基准。

Oct, 2022

从网络监督视频数据中学习细粒度动作概念的 YouTube 数据集挖掘

介绍了一个大规模的现实世界数据集，该数据集用于评估人类行为识别的学习技术，进一步提出了在无人干预状态下收集数据和训练的方法，并针对该训练数据出现的语义不一致性问题，提出了一个语义分层结构。

Jun, 2019

2021 EPIC-KITCHENS-100 无监督领域自适应动作识别挑战赛 VI-I2R 团队技术报告

通过 MEAA 的不确定性感知域适应网络，在源数据上使用非常有限的手部边界框注释，学习到了手部物体交互的特定特征，从而提高了微观场景下准确性并在无标签目标域中学习到了域不变特征，从而再精细的动作识别方面表现出最好的 top-1 动作识别准确性。

Jun, 2022

2022 行动识别无监督领域自适应挑战赛: HNU-FPV 队技术报告

本研究介绍了一种利用信息图像区域来实现有效领域对齐的方法，并在 2022 EPIC-Kitchens 无监督领域适应（UDA）挑战中取得了第四名的成绩。该方法使用轻量级 CNN 提取输入双流视频帧的全局信息，并通过 One Shot 内容选择方法选择有信息量的图像块来进行特征对齐。

Jul, 2022

EPIC-KITCHENS 数据集：收集、挑战和基准

本文介绍了 EPIC-KITCHENS 数据集的构建，该数据集具有大规模、种类多样的人们在厨房的日常行为记录，并且由多名来自不同国籍的参与者拍摄，其中所有视频都进行了密集注释和真实意图的讲述，并使用了多模态建模等基础线和新基础线进行了评估。

Apr, 2020

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

针对 EPIC-Kitchens 的行为识别模型评估

本文介绍了基于 EPIC-Kitchens 数据集的行动识别模型，比较了不同模型在具有长尾类分布、测试集中未见过环境和多任务等挑战下的表现，并探讨了模型的缺点和未来研究的方向。

Aug, 2019

扩展自我视觉：EPIC-KITCHENS 数据集

本文介绍了 EPIC-KITCHENS 数据库，它是一个大规模的第一人称视角视频数据库，其中包含了来自 32 个参与者的 55 小时视频，多样性与大规模性深度融合，视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框，并且注释与真实意图紧密相关，该数据库可用于第一人称视角视频领域的挑战评估和研究。

Apr, 2018

行动识别的未来何去何从？一种新模型及动力学数据集

本研究基于 Kinetics 数据集重新评估最先进的体系结构，并引入一种新的双流膨胀 3D ConvNet（I3D），该 ConvNet 可以在视频中学习无缝的时空特征提取器，利用成功的 ImageNet 架构设计及其参数，经过在 Kinetics 上的预训练后，I3D 模型在动作分类方面表现明显提高。

May, 2017

FineGym：一种用于精细行为理解的层次视频数据集

本研究基于体操比赛视频开发了 FineGym 数据集，提供了具有三层语义层次的动作和子动作的时间标注，挑战了运动分析中的行为识别和区分问题。

Apr, 2020