通过生成数据集实现强健分类：让现实留给想象

Feb, 2023

通过生成数据集实现强健分类：让现实留给想象

Leaving Reality to Imagination: Robust Classification via Generated Datasets

Hritik Bansal, Aditya Grover

TL;DR本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Abstract

Recent research on robustness has revealed significant performance gaps between neural image classifiers trained on datasets that are similar to the test set, and those that are from a →

robustness neural image classifiers naturally shifted distribution generated dataset imagenet

发现论文，激发创造

使用生成的图像训练模型的数据集不存在

利用生成网络产生的图像数据进行机器学习分类器的训练，本文提出了三种不同阶段的技术减少随机产生图像训练的不足，将其在 ImageNet 数据集上进行了检测，并相对于在实际数据上训练得到的分类器提供鼓舞人心的结果。

Nov, 2019

图像分类模型自然分布偏移鲁棒性测量

本研究评估了 204 个 ImageNet 模型在 213 个不同的测试条件下的表现，发现大多数当前技术无法提供对真实数据中分布变化的健壮性，唯一例外的是在较大且更多样化的数据集上进行训练可以在多种情况下提高健壮性，并且我们的研究表明当前真实数据中的分布变化是一个开放的问题。

Jul, 2020

利用生成的数据提高鲁棒性

本文探讨了如何使用仅基于原始训练集的生成模型来人为地增加原始训练集的大小并提高对扰动的鲁棒性，并证明了即使添加非现实的随机数据也可以提高鲁棒性。在 CIFAR-10、CIFAR-100、SVHN 和 TinyImageNet 上进行了大量的绝对准确度改进，对于常见扰动的数据集，本文方法的结果优于大多数使用外部数据的先前工作。

Oct, 2021

分析虚假训练数据对深度学习系统性能的影响

本文深入分析了使用不同比例的真实数据和合成数据来训练计算机视觉模型对模型鲁棒性和预测质量的影响，证明使用生成对抗网络生成高质量合成数据可以减轻深度学习模型面临的挑战。

Mar, 2023

ArtiFact：一个大规模人工和真实混合图像数据集，用于通用和健壮的合成图像检测

本篇论文旨在通过 ArtiFact 大型数据集以及多分类分类方案和滤波步幅缩减策略，检测来自已知和未知生成器的合成图像，以增强合成图像探测器的泛化和鲁棒性。结果表明，该方案在 IEEE VIP Cup ICIP 2022 挑战赛上取得了明显的优势。

Feb, 2023

GenImage：用于检测人工智能生成图像的百万级基准测试

该论文介绍了 GenImage 数据集，该数据集拥有超过 100 万对人工智能生成的假图像和真实图像，且具有丰富的图像内容和最先进的生成器，通过该数据集，研究人员可以有效加快相对于现有方法的优越人工智能生成图像检测器的开发和评估。

Jun, 2023

稳健性的多重面貌：对于越界泛化的关键分析

本研究介绍了四个新的现实世界分布变化数据集，重点探讨了先前提出的改进模型鲁棒性方法，并测试了它们的有效性。我们发现使用更大的模型和人工数据增强可以提高真实世界分布变化的鲁棒性，这与之前的研究不同。我们的研究结果表明，未来的研究必须同时研究多个分布变化，因为我们证明评估的方法不能始终提高模型的鲁棒性。

Jun, 2020

生成模型改善在分布偏移下医疗分类器的公平性

通过使用生成模型以标签有效的方式从数据中自动学习逼真的增强，我们展示了这种方法如何通过改进领域通用性来提高医学成像数据的鲁棒性和算法公平性。

Apr, 2023

揭示生成图像检测数据集中的常见偏差：伪造还是 JPEG？

该研究讨论了使用生成图像模型检测人工内容的紧迫性，并指出当前的数据集中存在与 JPEG 压缩和图像大小相关的偏差。研究还展示了去除这些偏差对 JPEG 压缩的鲁棒性和评估检测器的不同生成器间性能的显著影响，其中 ResNet50 和 Swin-T 检测器在 GenImage 数据集上的不同生成器间性能提高了超过 11 个百分点，达到了最先进的结果。

Mar, 2024

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020