为什么我不能在商场跳舞？学习减缓动作识别中的场景偏见

Dec, 2019

为什么我不能在商场跳舞？学习减缓动作识别中的场景偏见

Why Can't I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition

Jinwoo Choi, Chen Gao, Joseph C. E. Messou, Jia-Bin Huang

TL;DR我们提出了一种减轻场景偏差从而实现视频表示学习的方法，通过在行动分类的交叉熵损失中增加场景类型的对抗性损失和关于人类角色面罩混淆的损失，来鼓励学习能够在没有证据时无法预测场景类型和正确的行动的表示。我们的结果表明，相对于没有进行去偏置处理的基准模型，我们的预训练模型在行动分类、时间定位和时空行动检测等三个不同任务上均得到了一致的提升。

Abstract

Human activities often occur in specific scene contexts, e.g., playing basketball on a basketball court. Training a model using existing video datasets thus inevitably captures and leverages such bias (instead of using the actual discriminative cues). The learned representation may not generalize well to new action classes or different tasks. In this paper,

scene bias video representation learning adversarial loss human mask confusion loss pre-trained model

发现论文，激发创造

行动识别中的减轻表征偏见：算法与基准

本文研究基于算法和数据集两个角度的方法，提出 Spatial-aware Multi-Aspect Debiasing（SMAD）算法和 OmniDebias 数据集平衡方法，以应对目前现有数据集偏差问题，从而实现更好的物体检测和场景识别效果。

Sep, 2022

通过解耦场景和运动来增强无监督视频表示学习

提出了一种解耦场景和物体运动信息的 DSM 方法，通过构造正负剪辑来加强模型对物体运动信息的关注，减少场景信息的影响，并在两项任务上进行实验，发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1％和 8.8％。

Sep, 2020

模仿学习：探索解读人类超出环境限制的行为

该论文提出了一个新的数据集 Mimetics, 利用浅层神经网络在解决视频动作识别中缺乏对人类动作真正理解的问题上表现出惊人的效果，强调了人体语言通过人体姿态向行为识别问题转移的趋势。

Dec, 2019

DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示

通过 Disentangled VIdeo representations of Action and Scene (DEVIAS) 提出了一种细分行动和场景表示的方法，利用 slot attention 和辅助任务来有效提高视频理解性能。

Nov, 2023

无需真实人类学习人体动作识别表征

利用去除真实人类的真实世界视频和包含虚拟人类的合成数据进行预训练，提出了一种新颖的隐私保护多重自编码对齐（MAE-Align）的预训练策略，通过线性探测和微调在下游任务中缩小了人类动作识别表示和非人类动作识别表示之间的性能差距。

Nov, 2023

视觉识别中的公正性：减轻偏见的有效策略

本文探讨计算机视觉领域中，当进行看似不相关的任务（如活动识别或图像描述）训练时，模型学习偏见的问题，以及避免学习此类偏见的方法，并在 CelebA 数据集的属性分类任务中使用领域无关的训练技术，有效地减轻了现实世界中的性别偏见。

Nov, 2019

Social NCE: 社交感知运动表征的对比学习

本研究采用自我监督技术，构造负样本来改进神经网络学习的运动表示，在多智能体问题中有效预测人体运动和机器人导航，该方法能够在轨迹预测、行为克隆和强化学习算法中显著降低碰撞率，优于现有方法。

Dec, 2020

随机场景感知运动预测

该研究提出了一种新的数据驱动的、随机的运动综合方法 SAMP，该方法可以模拟在杂乱场景中表现不同风格的行为，通过训练 MoCap 数据可以实现优秀的表现。

Aug, 2021

全球与本地场景实体建模以实现精确的动作检测

我们提出了一种新的方法，通过自适应注意机制来分析和建模场景实体，以解决在体育视频中探测行为的复杂挑战，并取得了出色的性能改进。

Apr, 2024

基于动作的对比学习用于轨迹预测

本文研究车辆自主驾驶等人机交互场景下，预测第一视角的跟随摄像头采集到的行人轨迹，提出一种基于行人行为的对比学习损失、采样策略，辅以 CVAE 生成附加样本，将该对比框架与轨迹预测模型集成可显著提高模型预测效果，在多个基准测试中超过当前最先进的方法。

Jul, 2022