过拟合元学习的泛化性能理论特征化
本文研究了神经网络在基于梯度的元学习中的泛化问题,分析了目标景观的各种特性,提出了一种新的正则化方法以增强模型的泛化能力。实验表明,在元训练提供的元解决方案的基础上,通过几步基于梯度的微调适应元训练模型到新任务时,所得到的元测试解决方案变得越来越平坦,损失更低,并且远离元训练解决方案。
Jul, 2019
本文提出了一种简单而有效的方法,通过在每个参数的内部循环优化中随机删除梯度来缓解基于梯度的元学习的过拟合风险,从而改善了深度神经网络在新任务上的泛化性能。 作者在大量计算机视觉任务上进行了实验和分析,证明了梯度丢失规范化可以缓解过拟合问题并提高各种基于梯度的元学习框架的性能。
Apr, 2020
本文研究了超模型学习中的MAML算法在监督学习问题的推广性质,探讨了训练MAML模型的任务和样本数量对其推广误差的影响。我们提出了一种新的稳定性定义,从而捕捉了任务数和每个任务样本数对MAML推广误差的作用。
Feb, 2021
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
本文从梯度规范化的角度出发,提出了一种数据无关的元梯度增强(MGAug)方法,通过网络修剪来打破背诵性记忆,并探讨了三种修剪策略,实验表明该方法在多个few-shot学习基准测试中显著提高了性能
Jun, 2023
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对SAM具有重要影响。具体而言,我们证明了在随机设置中SAM可以实现线性收敛速度,并且发现SAM找到的具有线性稳定性的极小值相比SGD更加平坦且具有更均匀分布的Hessian矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。
Nov, 2023
对深度神经网络(DNN)进行逆向训练以提高其对敌对扰动的鲁棒性是一种被广泛采用的方法。然而,经验观察到,对于超参数化网络的逆向训练往往存在“鲁棒过拟合”问题:它可以实现接近于零的逆向训练错误,但鲁棒性的泛化性能不佳。本文从逼近的角度对逆向训练中过拟合的DNN的泛化能力进行了理论研究,得出了三个主要结果:i)对于分类问题,我们通过构造证明在超参数化的DNNs上存在无穷多的逆向训练分类器,可以获得任意小的逆向训练错误(过拟合),同时在数据质量、明显分离和扰动水平等方面满足一定条件时可以获得良好的鲁棒泛化误差。ii)只要目标函数足够平滑,线性超参数化(即参数数量略大于样本大小)就足以确保这种存在性。iii)对于回归问题,我们的结果证明,在逆向训练中存在无穷多的超参数化过拟合DNNs,可以实现几乎最优的标准泛化误差收敛速率。总体来说,我们的分析指出,鲁棒过拟合是可以避免的,但所需的模型容量将取决于目标函数的平滑程度,而鲁棒泛化差距是不可避免的。我们希望我们的分析能够更好地从逼近的角度理解DNNs的鲁棒性的数学基础。
Jan, 2024
深度神经网络在人工智能领域带来了革命性的进展,但面对分布转移时常常缺乏性能。传统神经网络假设训练和测试数据服从同一分布,然而实际应用中这一假设经常被违反。元学习作为一种有前景的方法,通过获取可传递的知识来快速适应各种任务,从而消除了从头学习每个任务的需求。本文基于特征提取策略和分类器学习方法的新分类法,全面调查了元学习在领域泛化方面的贡献,详细介绍了该领域的基础知识,并提供了关于未来研究方向的实践见解和深入讨论。
Apr, 2024