- 非齐次双层网络的大步长梯度下降法:边界改善与快速优化
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示 - 边际保持、差分隐私合成数据上训练的线性模型的超出风险限制
使用差分隐私综合数据训练机器学习模型,研究合成数据对线性模型的经验风险的影响。
- 隐私标签的多标记学习
通过隐私标签单元对多标签学习中的敏感信息进行保护,提出了一种名为隐私标签多标签学习(MLLPL)的新设置,并通过最小化隐私标签单元损失(PLUL)学习最优分类器。在多个基准数据集上的实验结果表明了该方法的有效性和优越性。
- 通过移除单个样本进行数据剪枝
我们提出了一种名为 MoSo 的新型数据修剪方法,旨在从训练集中识别并删除最不具信息的样本,通过衡量从训练集中排除特定样本时经验风险的变化程度来确定每个样本的重要性,通过一个高效的一阶逼近器,仅需要不同训练阶段的梯度信息,实验结果表明,Mo - 无过多实证风险的领域泛化
通过最小化约束条件下的惩罚,而不是与经验风险同时最小化,我们提出了一种解决域泛化领域中过度风险的方法,并通过将我们的方法应用于文献中的三种方法来证明其有效性。
- MM如何逃离尖锐的极小值
探讨了如何高效地找到近似的优化算法的平坦极值,提出了基于梯度和随机扰动的算法,在训练数据成本函数的情况下,提出了更快的算法。
- 过拟合检验
机器学习中的过拟合问题及测试方法的研究。通过假设检验,使用训练数据进行模型评估和过拟合的定量定义和检测,同时注意到分布转移的标记和在缺乏统一 PAC 保证的情况下概括学习的另一种概念。
- 流式 PAC-Bayes 高斯过程回归与性能保证,用于在线决策
本文提供了一个新的在线高斯过程(GP)算法的理论框架,它基于在线 PAC 贝叶斯理论,并且通过优化经验风险函数和先验分布与后验分布之间的差异来保证其泛化性能和准确性。
- 神经特征映射的超平面界限
本研究探讨了如何优化特征映射,使用神经网络来减少超平面的有效 VC 维度。结论表明,可以定义一个控制分类超平面 VC 维度的损失函数。当训练集较小时,使用此方法的性能有所提高。
- ICLR混合样式训练数据依赖性研究
本文探讨 Mixup 训练范例如何提高分类器对数据结构的适应性与推广性,并通过计算得出 Mixup 最优分类器的封闭形式,证明使用 Mixup loss 训练的分类器可能不会最小化数据的经验损失。此外,我们还给出了 Mixup 训练的广义条 - 战略分类实践
本文介绍了一种实用的针对策略性分类的学习框架,利用微分求解了用户的策略反应,从而直接最小化了 “策略性” 经验风险,并且证明了该方法在各种学习场景下的有效性。
- 统计学习中的风险单调性
本文针对机器学习中数据采集的困难和对泛化理解的缺乏,提出一种风险单调且效率较高的学习算法,解决了 Viering et al. 2019 提出的风险曲线非单调性的问题,同时提出了专门针对马尔可夫差分序列等非独立同分布的过程的经验 Berns - 无限制特征下的神经崩溃
本文介绍了一种简单的 “不受限特征模型”,该模型中神经网络崩溃现象得以实证,通过研究该模型,我们提供了关于神经网络崩溃产生原因的一些解释,从经验风险的角度进行解释。
- 梯度方法在可分数据上永不过拟
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
- CVPR分层稳健表示学习
本研究探讨了深度学习中中间层所提取的深层特征,并证明了这些特征的性能可能不佳,因为它们是通过最小化经验风险来学习的。针对当前任务与基准数据集的数据分布不同的情况,本研究提出了一种层次稳健优化方法来学习更通用的特征。该方法同时考虑了 exam - 经验风险的最小化和风险单调性
该研究提出了风险单调性的正式概念,其要求风险不会随着培训集大小的增加而期望恶化。此外,该研究还发现了各种标准学习器(特别是最小化经验风险的学习器)可以在培训样本大小上无脑不单调,这为新的研究方向开辟了一条全新的途径。
- ICML基于信息论的模型压缩对群体风险改进的理解
通过压缩模型,平衡泛化误差的减小和经验风险的增加,从而证明模型压缩可以提高预训练模型的总体风险,同时推荐使用 Hessian-weighted K-means 聚类压缩方法进行正则化,通过神经网络的实验进一步验证了理论结论。
- NIPS非凸学习和优化的梯度均匀收敛性
研究非凸性学习任务中经验风险的精细属性(梯度)和群体对应属性的收敛速度以及收敛对优化的影响;提出矢量值 Rademacher 复杂性作为导出非凸问题梯度无维度一致收敛界的工具;给出了应用这些技术进行非凸广义线性模型和非凸健壮回归的批梯度下降 - 小型 ReLU 网络具有强大的记忆能力:记忆容量的严密分析
研究了 ReLU 网络的有限样本表达能力,证明了 3 层 ReLU 网络可以通过利用深度,并需要大约根号 N 个节点即可完美记忆大多数 N 个数据点,并证明大约根号 N 个节点是记忆 N 个数据点的必要和充分条件,同时证明当 W = Ome - 分布式特征下的监督学习
本研究探讨了在大规模数据集和大维特征空间场景下的学习问题,通过考虑网络中代理人传播的特征信息,并提出了一种新颖的动态扩散构造、管道策略和方差减少技术相结合的分布式学习算法,能够实现在原始域中的线性收敛和全局最小值解。