视频动作识别的选择性卷积混合

Sep, 2023

Selective Volume Mixup for Video Action Recognition

Yi Tan, Zhaofan Qiu, Yanbin Hao, Ting Yao, Xiangnan He...

TL;DR在本文中，我们提出了一种名为选择性体积混合（SV-Mix）的视频增强策略，以改善在训练样本有限的情况下深度模型的泛化能力，在各种视频动作识别基准上提升了基于 CNN 和 Transformer 模型的性能。

Abstract

The recent advances in convolutional neural networks (CNNs) and Vision Transformers have convincingly demonstrated high learning capability for video action recognition on large datasets. Nevertheless, deep models often suffer from the overfitting effect on small-scale datasets with a

convolutional neural networks vision transformers video action recognition video augmentation strategy sv-mix

发现论文，激发创造

VideoMix：重新思考视频分类的数据增强

在视频分类任务中，我们首次系统地分析了各种数据增强策略的有效性，并提出了一个强大的增强策略 VideoMix，该策略通过将视频立方体插入另一个视频来创建新的训练视频；在各种数据增强基准上，VideoMix 一直表现优秀，在 Kinetics、Something-Something-V2 基准测试中始终优于其他增强基线，并提高了 THUMOS'14 中弱监督的动作定位性能和 AVA 中的视频检测任务。

Dec, 2020

Attentive CutMix：基于深度学习的图像分类增强数据增强方法

本文提出了一种基于 Attentive CutMix 的图像分类数据增强策略，在训练过程中利用中间层的注意力图寻找最具有辨别度的图像区域，能够显著提高基于卷积神经网络的图像分类性能。

Mar, 2020

CutMix: 用可定位特征的正则化策略训练强分类器

该论文提出了一种名为 CutMix 的数据增强策略，该策略结合了区域 dropout 策略和图像贴图技巧，其旨在提高卷积神经网络的分类性能，改善对象定位和提高网络的鲁棒性。实验结果显示，CutMix 方法在 ImageNet 数据集上的分类任务中能够持续地超越当前领先的数据增强方法，同时还能提高由其预训练的分类器在 Pascal 检测和 MSCOCO 图像字幕生成等任务中的表现。

May, 2019

TransformMix: 从数据中学习变换和混合策略

数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法，通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像，从而提高性能。

Mar, 2024

ViewMix: 强化自监督学习中稳健表征的增广

通过引入 ViewMix 增强策略，该研究提出了一种特别为自监督学习设计的方法，在生成同一图像的不同视图时，将图像的补丁从一个视图剪切并粘贴到另一个视图，通过利用这种增强策略所创建的不同视图，多种基于联合嵌入的自监督学习方法具有更好的定位能力并在一致性上胜过相应的基准方法，实验证明引入 ViewMix 增强策略有助于提高目前最先进方法中的表示的鲁棒性，并且计算时间的实验和分析表明，与其他对应方法相比，引入 ViewMix 增强策略没有引入额外的开销。

Sep, 2023

SuperMix：混合数据增强的监督

本文提出了一种监督式混合增强方法 SuperMix，使用牛顿迭代方法来提高效率，在对象分类和知识蒸馏任务中通过广泛的评估和消融研究验证了其有效性，将混合图像纳入蒸馏目标可显著提高结果。

Mar, 2020

TokenMix: 重塑图像混合在视觉 Transformer 中的数据增强

本文提出了一种名为 TokenMix 的数据增强技术，它在令牌级别上混合两个图像，通过将混合区域分区成多个独立的部分来实现，其适用于更好地训练视觉变换器，同时根据预训练的 teacher 模型的内容基础神经激活映射分配目标分数，增强了其稳健性和性能。

Jul, 2022

ResizeMix：混合数据以保留对象信息和真实标签

通过研究发现，基于图像显著性信息的数据混合并不一定对增强性能有太大帮助，采用更有效、更易于实现的 ResizeMix 方法进行数据混合比 CutMix 和基于显著性信息的方法更具优势。

Dec, 2020

S3Aug：用于动作识别的分割、采样和平移

本文介绍了 S3Aug，一种用于动作识别的视频数据增强方法。该方法通过分割和标签转换，从单个训练视频生成新的视频，并通过采样修改某些类别的标签图像，以生成多样的视频，并通过移动中间特征来增强生成视频帧之间的时间连贯性。通过在 UCF101、HMDB51 和 Mimetics 数据集上的实验证明了所提方法的有效性，尤其对于 Mimetics 数据集中的非上下文视频。

Oct, 2023

基于检索机制的卷积神经网络提高对抗样本的鲁棒性

本研究提出了一种检索增强的卷积网络，采用局部混合（local mixup）训练，旨在缓解异常对抗示例的影响，并改善拟合问题。在 CIFAR-10、SVHN 和 ImageNet 数据集上，通过对比实验证明所提出的方法在提高鲁棒性方面更好。

Feb, 2018