面向未曾见过的动作识别的通用表示
人类行为建模方面取得的进展涉及对隐含的、早期的感知行为(如注意力)以及明确的、后期的行为(如主观评分 / 喜好)的理解。然而,大部分先前的研究都集中在隔离地建模隐含和明确的人类行为上。我们能否建立一个统一的人类注意力和偏好行为模型,可在各种类型的视觉内容中可靠地工作?这样的模型将能够预测主观反馈,如整体满意度或审美质量评级,以及潜在的人类注意力或互动热图和浏览顺序,从而使设计师和内容创作模型能够优化其创作以实现以人为中心的改进。在本文中,我们提出了 UniAR - 一个统一的模型,可以在不同类型的视觉内容上预测隐含和明确的人类行为。UniAR 利用了一种多模态变换器,具有每个方面的不同预测头,并预测注意力热图、扫描路径或浏览顺序,以及主观评级 / 喜好。我们在涵盖自然图像、网页和图形设计的多样公共数据集上训练 UniAR,并在不同图像领域和各种行为建模任务上取得了领先的性能。潜在应用包括即时提供对界面 / UI 设计 / 图像有效性的反馈,并作为奖励模型进一步优化设计 / 图像创作。
Dec, 2023
本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型,该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义,从而实现了零样本行为识别任务的最新成果,并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。
Aug, 2021
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
Sep, 2022
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
本文介绍如何提高略带挑战的情况下识别黑暗环境下的运动的能力,我们介绍了 UG2+ Challenge,这是一个针对 AR 在黑暗场景下的模型鲁棒性评估比赛,提出了第一个用于黑暗视频 AR 任务的数据集 ARID dataset,报道了基准结果并分析挑战性,并总结了参赛队伍的解决方案以及他们的进展和方向。
Feb, 2022
无监督预训练及早融合策略的统一多模态无监督表示学习框架(UmURL)旨在提取骨架输入的统一表示,通过特征分解和对齐保证多模态特征包含各模态的完整语义,并在各种场景中实现鲁棒动作理解。该框架在三个大规模数据集上取得了新的多种下游任务场景中骨架 - based 动作表示学习的最先进性能。
Nov, 2023
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。
Sep, 2018
本文提出了一种基于超出分布检测器的广义零样本学习框架,以解决零样本行为识别中的问题。我们使用生成式对抗网络合成了新的动作类别特征,并将其用于训练检测器。实验证明,该方法在三个数据集上的性能优于基准模型(f-CLSWGAN),分类准确率分别提高了 7.0%、3.4%和 4.9%。
Apr, 2019
本研究提出了基于知识图谱的面部动作单位识别建模框架,采用深层神经网络框架结合全局图神经网络进行语义关系传播,旨在增强面部区域特征提取提高面部表情识别性能,实验表明该方法在面部动作单位识别上取得了最佳表现。
Apr, 2019