Nov, 2023

利用合成数据集:深度神经网络泛化中的形状偏向作用

TL;DR最近的深度学习研究主要受制于使用基于越来越大数据集训练的大型模型。然而,对广泛数据集的需求增加引发了一些担忧。针对此问题,新的研究方向出现了,专注于创建合成数据以替代真实数据。在本研究中,我们调查了神经网络在合成数据集上训练时展示的形状偏差,作为合成数据质量的一个指标。具体而言,我们的发现有三个关键点:(1)形状偏差在不同的网络架构和监督类型之间存在差异,对其作为泛化的预测因素以及解释模型识别与人类能力差异的能力产生了怀疑。(2)仅依靠形状偏差来估计泛化是不可靠的,因为它与多样性和自然性纠缠在一起。(3)我们提出了一种将形状偏差解释为估计数据集中样本多样性的工具的新方法。我们的研究旨在阐明在深度学习中使用合成数据及其相关形状偏差的影响,解决有关泛化和数据集质量的担忧。