- 通过一般化界限估计对联邦学习进行聚合加权
使用一种新的策略替代先前的加权方法,该策略考虑了每个本地模型的泛化界限,实验证明该方法显著改善了基准数据集上几种代表性的 FL 算法的性能。
- 信息论归纳学习的广义界限及其应用
本文首次在信息理论的背景下,为传导学习算法开发了数据相关性和算法相关性的一般化界限。我们表明传导学习算法的一般化差距可以通过训练标签和假设之间的互信息来限制。通过创新性地提出传导超样本的概念,我们超越归纳学习设置,并建立了各种信息测量的上界 - SGLD 的独立于时间的信息论泛化界
我们提供了一种新的信息理论泛化界限,用于研究随机梯度 Langevin 动力学(SGLD),在平滑性和耗散性的假设下。我们的界限是独立于时间的,当样本大小增加时会衰减为零,无论迭代次数和步长是否固定。与以前的研究不同,我们通过关注 Kull - 加权距离最近邻样本压缩
最近邻点压缩问题的加权距离最近邻点压缩模型,其理论性质得到研究,表现出比标准最近邻规则具有更好的压缩效果,但其一般化边界与后者几乎相同。对该问题建议了一种压缩启发式方法,在贝叶斯一致性和实证结果方面已取得有希望的成果。
- 基于范数的变压器的序列长度无关普适性界
该研究提供了一种不依赖输入序列长度的基于规范化的 Transformer 架构的广义化界限,并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界 Transformer 的 Rademacher 复杂性,并展示了这种广义化 - 比较泛化界中的比较器
通过对任意凸比较函数进行信息论和 PAC-Bayesian 广义泛化界推导,我们得到泛化界,这些界利用该函数衡量训练和总体损失之间的差异。当比较函数是边界分布的 CGF 凸共轭时,最紧密的界得以实现,这也适用于结构类似的广义泛化界。这证实了 - 深度神经网络的相关数据的广义上界
深度神经网络的广义界限在非平稳数据情况下的建立。
- 研究用 PINNs 解决 Burgers' PDE 在有限时间爆炸附近的能力
研究以理论角度验证 PINNs 的稳定性,推导了 Burgers' PDE 通用界限,实验证明界限与由神经网络找到的虚拟爆破解与真实爆破解之间的 L2 距离密切相关。
- 扩散随机特征模型
我们提出了一种受扩散模型启发的深度随机特征模型,它具有可解释性,并给出了与具有相同可训练参数数量的全连接神经网络相当的数值结果。我们通过对采样数据分布和真实分布之间的得分匹配性质的属性来推导了随机特征的泛化界限,并通过在时尚 MNIST 数 - 现代网络的路径 - 范数工具包:后果、承诺和挑战
通过使用支持一般 DAG ReLU 网络的路径范数工具包,该研究建立了适用于现代神经网络的泛化界限,该工具包不仅可以恢复或超越已知的界限,而且还具有计算简便、对网络对称性不变以及相对于算符范数的优化尖锐度等路径范数的优点。该工具包的多功能性 - 奇妙的概括度量无处追寻
神经网络在超参数化设置中的泛化界限无法达到紧致性,除非在总体分布上具备合适的假设。
- 通过算法相关的 Rademacher 复杂度实现泛化保证
算法和数据相关的广义化界限是解释现代机器学习算法的广义化行为所必需的。在这个背景下,存在包括 (各种形式的) 互信息和基于假设集稳定性的信息论广义化界限。我们提出了一个概念上相关但技术上独特的复杂度度量方法来控制广义化误差,这就是算法和数据 - 能量模型中特征多样性
本文研究能量学习及能量模型,重点关注特征集的多样性和冗余性的影响,利用 PAC 理论推导出各种上下文中的泛化界限,并表明减少特征集的冗余性可以提高模型的性能。
- 使用代理分类损失的假设迁移学习
通过算法稳定性研究 HTL 的学习理论,本文提供了一些条件下的学习保证和复杂度自由的泛化界限,揭示了迁移学习的优点并比较了不同场景下标准损失函数的行为,为从业者提供了有价值的见解。
- 均匀时间 Wasserstein 稳定性界限用于(带噪)随机梯度下降
通过将学习理论与应用概率联系起来,引入了一种新的方法来证明随机优化算法的 Wasserstein 稳定性边界,并在强凸损失和带有附加噪声的非凸损失的情况下获得了时间均匀稳定性边界,其不随迭代次数增加而增加,并且证明了 Lyapunov 函数 - 信息论泛化界的统一框架
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和 PAC-Bay - 协变量偏移适应性的双加权方法
该研究提出了最小化风险分类的方法来处理资料控制变量变化的问题,同时也发展了有效的技术,取得了更好的分类性能。
- 将因果推断重新解释为预测未观测的联合统计量的任务
通过因果推断方法可以推断未被观察到的联合分布的性质,进一步定义了一种从已观察到的变量中引入因果模型来推断未观察到变量的统计性质的学习场景,并且通过推导因果模型的 VC 维,得出了预测的泛化界限。
- ICML理想的持续学习者:一种永不遗忘的智能体
本文提出了一个新的永续学习框架 “理想永续学习器”(ICL),其通过构造保证避免了灾难性遗忘。我们证明了 ICL 统一了多种现有的永续学习方法,并为这些方法的优缺点提供了新的理论见解。最后,我们将 ICL 与现代研究领域中的经典主题和研究课 - IJCAI可识别的信息瓶颈
本文提出了一种基于认知信息瓶颈 (Recognizable Information Bottleneck, 简称 RIB) 的方法,旨在通过一种可优化的可识别性批评家,通过 Bregman 散度进行密度比匹配来规范表征的可识别性,从而优化模