FHA-Kitchens: 厨房场景下精细手部动作识别的新型数据集
本文提出了一种三流算法用于实时动作识别,并提供了新的手部洗涤视屏数据集,该算法不仅高效准确,而且能够识别极其相似的动作,从而为未来的精细动作识别任务引入了新的基准。
Oct, 2022
介绍了一个大规模的现实世界数据集,该数据集用于评估人类行为识别的学习技术,进一步提出了在无人干预状态下收集数据和训练的方法,并针对该训练数据出现的语义不一致性问题,提出了一个语义分层结构。
Jun, 2019
通过 MEAA 的不确定性感知域适应网络,在源数据上使用非常有限的手部边界框注释,学习到了手部物体交互的特定特征,从而提高了微观场景下准确性并在无标签目标域中学习到了域不变特征,从而再精细的动作识别方面表现出最好的 top-1 动作识别准确性。
Jun, 2022
本研究介绍了一种利用信息图像区域来实现有效领域对齐的方法,并在 2022 EPIC-Kitchens 无监督领域适应(UDA)挑战中取得了第四名的成绩。该方法使用轻量级 CNN 提取输入双流视频帧的全局信息,并通过 One Shot 内容选择方法选择有信息量的图像块来进行特征对齐。
Jul, 2022
本文介绍了 EPIC-KITCHENS 数据集的构建,该数据集具有大规模、种类多样的人们在厨房的日常行为记录,并且由多名来自不同国籍的参与者拍摄,其中所有视频都进行了密集注释和真实意图的讲述,并使用了多模态建模等基础线和新基础线进行了评估。
Apr, 2020
本研究采用弱监督和跨领域转移学习的方法,结合深度卷积神经网络和长短时记忆网络,实现从未剪辑的网络视频中,对于精细的动作定位识别,并使用大量的数据集如 FGA-240 和 THUMOS 2014,得到了令人信服的结果。
Apr, 2015
本文介绍了基于 EPIC-Kitchens 数据集的行动识别模型,比较了不同模型在具有长尾类分布、测试集中未见过环境和多任务等挑战下的表现,并探讨了模型的缺点和未来研究的方向。
Aug, 2019
本文介绍了 EPIC-KITCHENS 数据库,它是一个大规模的第一人称视角视频数据库,其中包含了来自 32 个参与者的 55 小时视频,多样性与大规模性深度融合,视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框,并且注释与真实意图紧密相关,该数据库可用于第一人称视角视频领域的挑战评估和研究。
Apr, 2018
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
本研究基于体操比赛视频开发了 FineGym 数据集,提供了具有三层语义层次的动作和子动作的时间标注,挑战了运动分析中的行为识别和区分问题。
Apr, 2020