利用合成数据集：深度神经网络泛化中的形状偏向作用

Nov, 2023

利用合成数据集：深度神经网络泛化中的形状偏向作用

Harnessing Synthetic Datasets: The Role of Shape Bias in Deep Neural Network Generalization

Elior Benarous, Sotiris Anagnostidis, Luca Biggio, Thomas Hofmann

TL;DR最近的深度学习研究主要受制于使用基于越来越大数据集训练的大型模型。然而，对广泛数据集的需求增加引发了一些担忧。针对此问题，新的研究方向出现了，专注于创建合成数据以替代真实数据。在本研究中，我们调查了神经网络在合成数据集上训练时展示的形状偏差，作为合成数据质量的一个指标。具体而言，我们的发现有三个关键点：（1）形状偏差在不同的网络架构和监督类型之间存在差异，对其作为泛化的预测因素以及解释模型识别与人类能力差异的能力产生了怀疑。（2）仅依靠形状偏差来估计泛化是不可靠的，因为它与多样性和自然性纠缠在一起。（3）我们提出了一种将形状偏差解释为估计数据集中样本多样性的工具的新方法。我们的研究旨在阐明在深度学习中使用合成数据及其相关形状偏差的影响，解决有关泛化和数据集质量的担忧。

Abstract

Recent advancements in deep learning have been primarily driven by the use of large models trained on increasingly vast datasets. While neural scaling laws have emerged to predict network performance given a specific level of computational resources, the growing demand for expansive da

deep learning neural networks synthetic data shape bias generalization

发现论文，激发创造

深度神经网络的认知心理学：基于形状偏差案例研究

本文提出利用认知心理学的问题描述、理论和实验方法来解决现代深度神经网络的可解释性问题，并将发展心理学中关于儿童如何学习物体名称的分析应用到 DNN 模型中。发现在 ImageNet 分类任务上，表现良好的一次性学习模型也存在类似人类倾向于按照形状而非颜色对物体进行分类的偏向，并证明了认知心理学工具揭示 DNNs 的隐藏计算属性的能力。

Jun, 2017

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

增强的形状偏差能否提高神经网络对常见污染的鲁棒性？

通过对自然图像进行样式和边缘特征的处理，对卷积神经网络进行数据增强可以减少纹理偏差并增加形状偏差，从而提高其鲁棒性。

Apr, 2021

InBiaseD: 通过感知形状来改善归纳偏置蒸馏从而提高泛化性能和鲁棒性

提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。该方法通过偏差对齐目标来强制学习更通用的表示，从而减轻了深度神经网络中的一些缺点，如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案，对改善分类和鲁棒性之间的平衡起到了帮助的作用。

Jun, 2022

深度生成模型中的偏差和泛化：一个实证研究

本文提出一个系统研究深度生成模型的偏差和泛化的框架，并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。

Nov, 2018

机器对形状与纹理的偏好：发育启发视角的探讨

该文使用类似于发育阶段的范式，检测了预训练神经网络在识别形状和纹理时的归纳偏好。实验结果表明，这些神经网络更倾向于基于形状而非纹理进行分类。

Feb, 2022

使用合成数据增广消除数据集偏差

本文探讨使用有针对性的合成数据增强 - 结合游戏引擎模拟和 sim2real 风格转移技术 - 填补视觉任务的真实数据集中的空缺。在三种不同的计算机视觉任务中（停车位检测，车道检测和单 ocular 深度估计），实证研究一致表明，将合成数据与真实数据混合训练能够显著提高交叉数据集的泛化性能。

Apr, 2020

分析数据集偏差对深度人脸识别系统的影响的实证研究

利用合成的面部图像研究数据集偏差对深度卷积神经网络的泛化性能的影响，发现数据集偏差对 DCNNs 的泛化性能有着显著的影响，提出的方法允许观察和比较不同 DCNN 架构的泛化性能，同时揭示了当前 DCNN 架构的主要局限性。

Dec, 2017

使用合成数据生成器研究偏见：实证证据与哲学解释

本文提出了一种框架来生成具有特定类型偏差和它们的组合的合成数据，以分析在机器学习模型中存在的各种偏差，讨论它们与道德和正义框架的关系，并利用我们提出的合成数据发生器在不同场景中（包括存在不同偏差组合的场景）进行实验，因此分析了偏差对未减轻和减轻的机器学习模型的性能和公平度指标的影响。

Sep, 2022

基于震荡图嵌入的形状偏向域通用化

该论文研究表明，图像卷积神经网络的不足与纹理偏差有关，而相对缺乏形状偏差则导致了域通用性的不良表现。通过使用经典的计算机视觉方法，即使用轮廓图的震荡图表示图像的轮廓内容，来显式和完整地表示图像形状，进而使用最近的图神经网络方法进行分类，实验结果表明即使不使用外观，基于形状的方法在域泛化方面超过了基于经典的图像 CNN 方法。

Sep, 2021