数据集工厂：用于生成计算机视觉数据集的工具链

ICCVSep, 2023

数据集工厂：用于生成计算机视觉数据集的工具链

Dataset Factory: A Toolchain For Generative Computer Vision Datasets

Daniel Kharitonov, Ryan Turner

TL;DR利用数据集工厂方法实现数据集存储和处理的分离，以及在机器学习团队和个人研究者间实现大规模数据中心化操作，以解决生成式人工智能工作流中数据处理和共享的挑战。

Abstract

generative ai workflows heavily rely on data-centric tasks - such as filtering samples by annotation fields, vector distances, or scores produced by custom classifiers. At the same time, →

generative ai workflows data-centric tasks computer vision datasets dataset factory approach data-centric operations

发现论文，激发创造

DatasetGAN：最小人力投入的高效标签数据制造工厂

介绍了 DatasetGAN 方法，利用 GAN 生成合成数据集，仅需少量标注样本，就能训练出能够与传统无监督方法相匹敌的语义分割模型，并在人脸和汽车语义分割任务上取得了领先的性能。

Apr, 2021

稳定扩散控制的工业数据图像合成

使用生成模型在工业数据上重新生成自我标记的有缺陷图像，从而优化真实工业使用情况下的裂缝分割器，显示了该方法在生产环境中的潜力。

Jan, 2024

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

ArtiFact：一个大规模人工和真实混合图像数据集，用于通用和健壮的合成图像检测

本篇论文旨在通过 ArtiFact 大型数据集以及多分类分类方案和滤波步幅缩减策略，检测来自已知和未知生成器的合成图像，以增强合成图像探测器的泛化和鲁棒性。结果表明，该方案在 IEEE VIP Cup ICIP 2022 挑战赛上取得了明显的优势。

Feb, 2023

走向 ML4EDA 的 Imagenets

描述了在硬件域中策划、维护和扩大两个大规模、高质量数据集的挑战，以及有关数据集质量、安全性和硬件领域定制数据增强工具的使用的相关问题。

Oct, 2023

在未来的工厂平台上获得的模拟和多模态制造数据集

本文介绍了两个工业级数据集，这些数据集是在 2023 年 12 月 11 日和 12 日由南卡罗来纳大学的未来工厂实验室收集的。这些数据集是通过使用工业标准的制造装配线生成的，目的是提供工具以进一步研究制造业的智能增强。这些数据集希望填补现有数据集中稀缺的真实制造数据以及带有异常和缺陷的数据的空白，并为研究人员提供建立和训练适用于制造业的人工智能模型的基础。

Jan, 2024

用数据为中心的方法训练深度神经网络减少数据

本论文总结了在数据中心人工智能比赛中的获胜结论，提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案，并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。

Oct, 2021

VISION 数据集：基于视觉的工业检测基准测试

通过引入 VISION 数据集，我们希望为实现基于视觉的工业检测的进一步提高带来新的挑战和方法。

Jun, 2023

通过生成数据集实现强健分类：让现实留给想象

本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Feb, 2023

使用生成的图像训练模型的数据集不存在

利用生成网络产生的图像数据进行机器学习分类器的训练，本文提出了三种不同阶段的技术减少随机产生图像训练的不足，将其在 ImageNet 数据集上进行了检测，并相对于在实际数据上训练得到的分类器提供鼓舞人心的结果。

Nov, 2019