不要以貌取人：视频识别的运动一致增强

ICLRMar, 2024

不要以貌取人：视频识别的运动一致增强

Don't Judge by the Look: A Motion Coherent Augmentation for Video Recognition

Yitian Zhang, Yue Bai, Huan Wang, Yizhou Wang, Yun Fu

TL;DR本研究探讨了色调变化对视频识别的影响，并提出了一种名为 Motion Coherent Augmentation（MCA）的数据增强方法，通过引入视频中的外观变化，隐式地鼓励模型优先考虑动态模式而非静态外观。我们提出了一个名为 SwapMix 的操作来高效地修改视频样本的外观，并引入了 Variation Alignment（VA）来解决 SwapMix 引起的分布偏移，强制模型学习外观不变表示。全面的实证评估验证了 MCA 的有效性和泛化能力，以及 VA 在其他增强方法中的应用。

Abstract

Current training pipelines in object recognition neglect hue jittering when doing →

training pipelines object recognition hue jittering data augmentation video recognition

发现论文，激发创造

数据增强以提高图像字幕生成解决方案的鲁棒性

该论文研究了运动模糊在图像描述中的影响，通过在训练中增加数据，在目标检测和描述两个阶段中都加入数据增强技术，成功地改进了解决方案的鲁棒性，特别是在高度运动模糊的情况下使 CIDEr-D 降低到了 11.7。

Jun, 2021

小规模视频识别的运动增强自训练

本文介绍了一种称为 MotionFit 的自训练方法，采用 3D 卷积神经网络、运动模型和假标签来提高视频下游任务的效果。该方法在小规模视频数据集中表现优异，远超其他知识迁移算法、半监督学习和仅使用视频的自我监督学习。

May, 2021

VideoMix：重新思考视频分类的数据增强

在视频分类任务中，我们首次系统地分析了各种数据增强策略的有效性，并提出了一个强大的增强策略 VideoMix，该策略通过将视频立方体插入另一个视频来创建新的训练视频；在各种数据增强基准上，VideoMix 一直表现优秀，在 Kinetics、Something-Something-V2 基准测试中始终优于其他增强基线，并提高了 THUMOS'14 中弱监督的动作定位性能和 AVA 中的视频检测任务。

Dec, 2020

学习数据有效的具有表征不变性的动作识别

使用不同的数据增强策略对视频进行数据增强，结合现有的半监督学习框架，能够在低标签模式下提高 Kinetics-100/400, Mini-Something-v2, UCF-101 和 HMDB-51 数据集的性能，并在完全监督的情况下证明提高了性能。

Mar, 2021

MotionAug：结合物理校正的人体运动预测数据增强

本文提出了一种运动数据增强方案，该方案融合了具有多样性的运动合成和强制物理合理性的运动修正。该方案使用了修改后的 VAE 和 IK 进行运动合成，使用物理仿真的模仿学习和后续运动去偏置等方式进行了运动校正。该方法在基于循环神经网络和图卷积网络的人体运动预测模型中比以往的基于噪声的运动增强方法表现更佳。

Mar, 2022

基于运动条件的图像动画用于视频编辑

MoCA 是一种基于动作条件的图像动画方法，用于视频编辑，并通过图像编辑和动作条件的图像动画简化了视频编辑问题。此外，我们还提出了一个新的基准测试，用于测量对象替换、背景变化、风格变化和动作编辑等各种任务的编辑能力，并在我们提出的基准测试上对最新的视频编辑方法以及 MoCA 进行了全面的人工评估。MoCA 建立了一个新的最先进技术，展示了更高的人类偏好获胜率，并且在动作编辑方面胜过了包括 Dreamix（63%）、MasaCtrl（75%）和 Tune-A-Video（72%）在内的值得注意的最近方法，带来了显著的改进。

Nov, 2023

跨域运动转移的运动和外观适应

本文提出了一个 MAA 方法，实现了跨域运动传输的形状和外观保持，包括引入保持角度信息和结构引导的外观一致性模块，提出的 MAA 模型在数据集 Mixamo-Video to Fashion-Video 和 Vox-Celeb to Cufs 上均有更好的定量和定性效果。

Sep, 2022

可组合增强编码用于视频表示学习

研究自监督视频表示学习中的对比方法，提出一种考虑数据增强变量的对比学习框架，以提高针对时间信息进行的微粒视频动作识别的性能，并在多个视频基准测试中达到最先进水平。

Apr, 2021

以动作为中心的对比学习视频表征

本文提出了一种基于 Motion-focused 对比学习的方法，利用光流采样和梯度图校准训练视频特征，加强了自监督视频表示学习中的数据增强和特征学习，实验结果表明方法有效，超过了传统监督预训练的表现。

Jan, 2022

基于关注运动增强的跨模态交互表征学习压缩视频动作识别

本研究提出了一种新的框架 MEACI-Net，采用 RGB 模态和运动模态，并针对压缩视频动作识别常见的问题，加入了 Motion Enhancement、Selective Motion Complement 和 Cross-Modality Augment 模块，实现了两种模态间的交互作用和特征增强，有效提高了识别准确率和计算效率。

May, 2022