数据增强以提高图像字幕生成解决方案的鲁棒性

CVPRJun, 2021

数据增强以提高图像字幕生成解决方案的鲁棒性

Data augmentation to improve robustness of image captioning solutions

Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo

TL;DR该论文研究了运动模糊在图像描述中的影响，通过在训练中增加数据，在目标检测和描述两个阶段中都加入数据增强技术，成功地改进了解决方案的鲁棒性，特别是在高度运动模糊的情况下使 CIDEr-D 降低到了 11.7。

Abstract

In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur i

motion blur image captioning training data augmentation object detection cider-d

发现论文，激发创造

在线目标检测中运动模糊处理的改进

本论文针对基于 egomotion 的模糊图像在目标检测中的困难，探讨了图片去模糊、纹理多尺度处理、标签生成、针对运动模糊的条件处理等五种方法，发现自定义标签生成能明显提高目标检测的效果，同时针对特定类型的运动模糊训练模型也能获得显著提高。通过在 COCO 数据集和真实世界数据集上实验，最终得到了一个易于实现并且具有优秀检测率的模型。

Nov, 2020

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

通过协变量转移适应性提高对常见数据损坏的稳健性

本研究证明：大多数图像较差的基准测试不能很好地衡量图像识别模型在许多场景下的稳健性，因此提出了一种基于非监督在线适应的方法，通过更改模型激活的统计特征来提高模型的稳健性。改进后的模型可在 ImageNet-C 数据集上取得更好的表现。

Jun, 2020

ID-Blau：基于隐式扩散的模糊图像去模糊增强

提出了一种基于隐式扩散的重新模糊增强方法（ID-Blau），利用锐利图像与可控模糊条件图相结合生成对应的模糊图像，通过采样多样的模糊条件，ID-Blau 能够生成训练集中未见的各种真实模糊图像，从而显著提高最先进的去模糊模型的性能。

Dec, 2023

不要以貌取人：视频识别的运动一致增强

本研究探讨了色调变化对视频识别的影响，并提出了一种名为 Motion Coherent Augmentation（MCA）的数据增强方法，通过引入视频中的外观变化，隐式地鼓励模型优先考虑动态模式而非静态外观。我们提出了一个名为 SwapMix 的操作来高效地修改视频样本的外观，并引入了 Variation Alignment（VA）来解决 SwapMix 引起的分布偏移，强制模型学习外观不变表示。全面的实证评估验证了 MCA 的有效性和泛化能力，以及 VA 在其他增强方法中的应用。

Mar, 2024

通过将数据平滑与标签平滑耦合实现鲁棒分类

通过引入训练时增强技术来增强泛化能力和准备深度神经网络对测试时的错误。在图像损坏方面，借鉴生成扩散模型的成功，我们提出了一种新方法，将数据增强（通过图像加噪和模糊）与标签平滑结合起来，以使预测的标签置信度与图像退化相一致。该方法实施简单，引入的开销微乎其微，并可以与现有的增强技术相结合。我们在 CIFAR 和 TinyImageNet 数据集的损坏图像基准上证明了其改进的鲁棒性和不确定性量化能力。

Jun, 2024

适应物体运动模糊的检索方法

我们提出了一种在受到运动模糊影响的图像中进行物体检索的方法，并通过学习鲁棒的表达方式，能够匹配模糊物体与其去模糊版本，我们还提供了首个大规模模糊物体检索数据集，并在多个实验中验证了我们的方法优于现有方法。

Apr, 2024

真实事件的运动去模糊

本文提出了一种端到端学习框架，利用真实世界的事件减轻数据不一致性造成的性能下降，在光流的帮助下利用模糊一致性和亮度一致性实现了自监督，提出了分段线性运动模型以考虑运动的非线性，加强了对真实场景中运动模糊形成的准确建模，并在合成和真实运动模糊数据集上进行充分评估，显示了在真实世界情境中差距较大的模拟和真实运动模糊之间的良好表现。

Sep, 2021

抑制运动模糊以实现鲁棒性的三维棒球选手姿势建模用于投球分析

使用视频来分析棒球投手在策略和预防伤害方面起着至关重要的作用。基于计算机视觉的姿势分析提供了一种高效和经济的方法。然而，使用 30fps 帧速率的可访问广播视频通常在快速动作中导致部分身体运动模糊，限制了现有姿势关键点估计模型的性能。本文提出了一种合成数据增强流程，以增强模型处理模糊动作的能力。此外，我们利用野外视频使我们的模型能够在不同的真实环境条件和摄像机位置下保持稳健。通过精心优化增强参数，我们观察到在 2D 和 3D 姿势估计的测试数据集上损失分别减少了 54.2% 和 36.2%。通过将我们的方法应用于现有最先进的姿势估计器，我们展示了平均改进了 29.2%。研究结果突出了我们的方法在减轻运动模糊带来的挑战方面的有效性，从而提高了姿势估计的整体质量。

Sep, 2023

计算机视觉中模型鲁棒性的傅里叶视角

计算机视觉中，通过数据增强方式可以提高鲁棒性，但增加高斯数据增强和对抗训练等方法并不能保证所有的污染类型都能同样得到提高，因此需要使用更多样的数据增强方式来缓解这些折衷。最近提出的 AutoAugment 方法在清晰精度和鲁棒性方面均得到了最佳表现。

Jun, 2019