通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
本研究使用有效的工具变量来考虑具有任意机器学习方法的异质性处理效应估计,并减少了问题到最小化一个适当的损失函数(依赖于一组辅助模型,每个模型对应一个独立的预测任务)的规模。
May, 2019
本文分析比较了深度学习中两种广泛使用的处理不变性的方法:数据增强和特征平均,并针对其优缺点提出了相关理论结果和实验证明。其中,数据增强训练可以更好地估计风险和其梯度,并提供了PAC-Bayes泛化界;而特征平均可以在使用凸损失时降低泛化误差并收紧PAC-Bayes界。
May, 2020
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
本文提出了几种方法来开发基于贝叶斯神经网络的数据增强,实现隐式使用随机扰动的对数似然,引入“有限轨道”设置,允许精确计算似然函数,并在更常见的“全轨道”设置中提供紧密的多样本边界。通过这些模型,我们发现冷后验效应即使在使用正确的似然函数的原则模型中使用数据增强仍然存在,因此,冷后验效应不能被视为使用不正确的似然函数的数据增强的人造因素。
Jun, 2021
本文介绍了一种利用Gradient Normed (GraNd)和Error L2-Norm (EL2N)这两个简单的得分标准来识别深度学习中最重要的数据训练样本,并进行数据修剪以提高模型效果的方法,同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。
Jul, 2021
本文介绍一种新的深度反事实学习架构,旨在解决因果机器学习模型中的可解释性和定向正则化问题,并演示了其在估计个体治疗效果方面的应用。
Jun, 2022
本文提出了基于高斯混合模型的互信息估计算法GMM-MI, 经验证其在深度学习模型的可解释性研究中表现良好,可用于评估自编码的潜在空间中变量的分离度和与物理量的相关性分布。
Oct, 2022
通过数据驱动的方法,在结构因果模型框架下,提出了一种名为Focused Adversarial Invariance Regularization (FAIR)的新框架,用于解决多样环境下的不变性追求问题,并应用FAIR-NN估计器实现普适的非参数不变性学习。
May, 2024
深度神经网络在依赖数据上的显式正则化和优化性能最近取得了相当大的进展。本文研究了从强混合观测样本中进行深度学习,并处理了平方损失和一类广义损失函数。对于包括回归估计、分类、时间序列预测等的一般框架,建立了期望超越风险的奥拉克不等式并给出了一类H"older平滑函数的界限。针对强混合数据和次指数误差的非参数回归,我们针对$L_2$误差建立了奥拉克不等式,并研究了该误差在一类H"older组合函数上的上界。对于具有高斯和拉普拉斯误差的非参数自回归的特定情况,我们建立了$L_2$误差在此H"older组合类上的下界。在对数因子上,这个界限与其上界匹配,因此深度神经网络估计器实现了最佳的极小化速率。
Jun, 2024