该论文研究了大批量训练中的一般化差距现象,并提出一种名为 “Ghost Batch Normalization” 的新算法,可显著减少一般化差距而不增加权重更新数量。
May, 2017
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
该论文研究发现,交叉熵等损失函数不能很好地预测深度神经网络的泛化能力,作者提出了一种基于边缘分布的测量方法,它可以被应用在任何架构的前馈深度网络上,并指出这个方法可能会提示新的训练损失函数的设计来实现更好的泛化。
Sep, 2018
通过经验重放,研究深度神经网络在持续学习中稳定性差的问题,发现一种能极大减少性能下降的方法,从而实现更高效率的学习。
Jun, 2023
通过将校准误差分解为训练集的校准误差和校准泛化间隙,我们理论证明了深度神经网络在训练集上通常是校准的,校准泛化间隙受到标准泛化间隙的限制,因此具有小的泛化间隙的模型是校准的。
Oct, 2022
通过研究模型在训练过程中的随机性,我们发现在自然语言理解任务中,模型的预测结果的不稳定性会对一部分查询产生影响,提出了一种衡量稳定性现象的方法 —— 标签熵,我们研究了数据不可知的正则化方法和新的数据中心方法,发现它已在计算成本的分数中取得了 90% 的性能优势以及金标准的表现。
May, 2023
深度神经网络在分布变化下的泛化能力与特征污染、归纳偏差等因素相关,并非仅仅是偶然性相关。
Jun, 2024
在这篇论文中,我们展示了当应用于同质任务的联合增量训练时,稳定性差距也会出现。我们进一步分析了细粒度的批次分析,为潜在解决方向提供了洞见。
本文介绍了深度神经网络的预测误差可以通过模型的预测不一致性进行估计,其中,“广义差异等式” 遵循了深度集合的良好校准性,并提出了 “类别聚合校准” 的概念。但我们发现该理论可能不实用,因为预测不一致性增加时,深度集合的校准性可能会降低,并需要标签来估计新数据集上的校准性。我们简化了理论陈述和证明,并在概率上下文中展示它们是简单明了的。
Feb, 2022
本文讨论了深度学习中的一项科学挑战,即解释归纳泛化问题,通过关注经验性评估方法,提出了将泛化度量评估纳入分布强健性框架的看法。
Oct, 2020