- 关于时间点过程中循环神经网络的非渐近理论
本文通过建立 RNN-TPPs 在多个已知 TPP 设置下的超额风险界限,证明了不超过四层的 RNN-TPP 可以实现逐渐减小的泛化误差,技术贡献包括多层 RNN 类的复杂性刻画,逼近动态事件强度函数的 $ anh$ 神经网络构建以及缓解无 - 基于数据驱动的误差估计:无技术债务的多重错误上界
通过数据驱动的方法,我们提出了一个完全基于数据的途径来估计最大误差的上界,解决了构建多个同时有效置信区间的问题,并拓展了估计过程的应用领域。
- 协变量偏移下的最小范数插值
高维线性回归中的过拟合与泛化问题在转移学习中的不同表现及风险边界进行了分析和研究,并提出了基于超参数化程度的有益和有害转变偏差的分类方法。
- 使用预处理改进最小二乘问题的隐式正则化 SGD
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
- 异常值鲁棒的 Wasserstein DRO
给定一个研究论文,提取 5 个关键词,准确地代表其主要主题和研究领域。然后,用一句简明扼要的中文句子概括该论文。
- 单个注意力层可以学到什么?基于随机特征的研究
注意力层是 Transformer 架构的核心组成部分,本研究对单个多头注意力层的学习和泛化进行了严格的理论研究,探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面,实验证明了理论结果并展示了样本大小与目标 - 随机组合梯度下降算法的稳定性和概化能力
通过统计学习理论的算法稳定性角度,本文提供了随机组合梯度下降算法的稳定性和泛化分析,包括引入组合均匀稳定性的概念、建立其与复合优化问题泛化性能的定量关系、针对两种常用的随机组合梯度下降算法 SCGD 和 SCSC 建立组合均匀稳定性结果,并 - AAAI三元组学习的稳定性和泛化性能
本研究基于稳定性分析,研究了三元组学习的一般化保证,并获得了随机梯度下降和正则化风险最小化的高概率一般化上限和过量风险下限,这为三元组度量学习的理论奠定了基础。
- MM对数拉普拉斯变换的算法特征及非欧几里得近端采样器
本文介绍了一种针对非欧几里得几何体的高效采样算法,该算法通过 log-Laplace 变换提供正则化性质,这种采样器匹配现有的欧几里得采样器,并在凸优化等领域表现出色。
- 稳定性和偏差优化风险界的收敛速度为 $O (1/n)$
研究证明,通过满足所谓的 Bernstein 条件,可以避免高概率广义化界限中的采样误差项,从而实现高概率过量风险边界,我们进而讨论了一些强凸和 Lipschitz 损失的方法。我们展示了任何经验风险最小化方法的 $O (log n/n)$ - 链式法则的链接:多级熵正则化与神经网络的训练
文章提出了一种基于多级相对熵的复杂度量家族,导出了神经网络的泛化和过剩风险界,并利用多级结构解决了经验风险最小化问题,并提出了基于 Gibbs 后验分布的新的带有性能保证的神经网络训练过程。
- 广义无界损失函数的快速收敛:从 ERM 到广义贝叶斯
本文提出了一种适用于广义无界损失函数的新型超额风险界限,并探讨了该界限对于广义贝叶斯推断在错误设置下具有的收敛速率以及其与赫林格度量的关系。
- 通过辅助假设的转移实现快速收敛
通过使用其他任务的假设集合,研究了一种广泛的以 ERM 为基础的线性算法,当传递的源假设组合适当时,证明了其具有加速收敛的泛化和过度风险的边界,然而,如果源假设组合不适合目标任务,那么它会恢复到常规的学习速率。
- 带痕范数正则化的多任务学习的超额风险界
通过轨迹规范化正则化方法,可以在多任务学习中提高精度和性能,并给出过量风险界,并且独立于输入空间维度,同时考虑到数据分布的属性以及任务数和每个任务的示例数。