- 探索 Softmax 的前沿:可证明的优化、扩散模型应用与更多
通过理论研究两层 softmax 神经网络的优化和泛化性质,揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域,从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函 - 噪声无关情况下核岭回归的对偶分析
我们对核岭回归的泛化性质在无噪声情况下进行了综合分析,证明了核岭回归能够达到最小最优速率,该速率取决于相关核函数的特征值衰减和目标函数的相对平滑度。
- 通过分数型福克 - 普朗克方程推导重尾 SDE 的泛化界限
通过评估与所谓的分数 Fokker-Planck 方程相关的熵流,我们证明了重尾 SDE 的具有高概率的概括界限,无需包含任何非平凡的信息论术语,并发现了一个相变现象,这表明重尾可能有利也可能有害,具体取决于问题的结构。
- 探索生成流网络的泛化行为
生成流网络(GFlowNets,GFNs)是一种生成式框架,用于学习离散空间上的非归一化概率质量函数。我们通过实证验证了 GFlowNets 的一些泛化机制假设,发现它们学习逼近的函数具有隐含的结构,有利于泛化。同时,我们还发现 GFlow - 单层图卷积网络的渐近泛化误差
通过分析单层图卷积网络在属性随机块模型和神经先验块模型上的训练性能,我们研究了图卷积网络的收敛速率以及其达到的最优贝叶斯速率。
- 多群组学习的层次群组
多组学习模型扩展了多组学习的研究,针对具有层级结构的组设计了一种具有解释性和确定性的决策树预测算法,经实验证明在具有层级组结构的真实数据集上具有良好的泛化性能。
- 对抗性量子机器学习:一种信息论的普遍化分析
这篇论文研究了对抗训练的量子分类器在受限制的白盒攻击下的泛化特性,通过使用攻击感知的或对抗的损失函数进行训练,对量子对手最大化分类器的损失,得到了对抗训练的量子分类器的集成误差的新的信息理论上限,并验证了理论结果在合成环境中的数值实验。
- 一般化与信息化的合拟预测
通过建立基础预测器的泛化性能与条件概率预测集成信息量之间的理论连接,本研究推导了一个上界,以便理解条件概率预测集的平均大小对校准数据量、目标可靠性和基础预测器的泛化性能的依赖关系。通过简单的数值回归和分类任务验证了理论洞察的有效性。
- 关于机器学习中硬件选择的公平性影响
在机器学习生态系统中,硬件选择经常被认为只是一个辅助工具,而算法和数据则是关注重点。然而,在诸如机器学习即服务平台这样的环境中,用户通常无法控制模型部署所使用的硬件,这种忽视尤其成问题。本文调查了硬件选择对模型性能和公平性之间微妙平衡的影响 - 大学习速率下随机梯度下降的良性振荡
通过理论研究神经网络在大学习率随机梯度下降算法训练中的泛化性能,我们发现大学习率下神经网络权重的振荡对神经网络的泛化是有益的,并且可能优于小学习率下平滑收敛的神经网络。我们称这种现象为 “良性振荡”。利用深度学习的特征学习视角,我们的理论研 - 多模式学习理论
研究多模态学习算法的泛化性质,发现与单一模态学习相比,多模态学习可以达到更好的泛化界限,最多可以提高到 O (√n) 倍,其中 n 代表样本大小。
- 我们需要多少个神经元?使用梯度下降算法训练的浅层网络的精细分析
我们在神经切向核(NTK)范围内对使用梯度下降(GD)训练的两层神经网络的泛化性质进行分析,对于早停止的 GD,我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度;在此过程中,我们准确地跟踪了泛化所需的隐藏神经元 - 广义谱方法的随机特征逼近
随机特征逼近是加速大规模算法中核方法的最流行技术之一,并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质,包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计 - 神经网络贝叶斯推断中的数据变异理论
基于无限宽度神经网络的高斯过程,并结合内核和推理方法,构建了一个场论的形式体系,研究了无限宽度网络的泛化性质,并从输入数据的统计性质得到了泛化性质的提取。
- 关于预训练数据多样性与微调鲁棒性的关联
预训练对深度学习中的模型性能具有广泛应用,我们的工作旨在理解该训练策略对下游模型的泛化特性的影响。我们发现,影响下游有效鲁棒性的主要因素是数据数量,而其他因素的影响有限。
- 批量预测器在分布内通用化
研究批处理预测器的泛化特性,证明其具有与标准逐个样本方法相比指数级更强的泛化保证,并验证了在各种任务、架构和应用中的理论洞察力。
- 图神经网络在恒等效果学习中的泛化限制
在研究中,我们分析了 Graph Neural Networks 在简单认知任务中的能力,并讨论了其在学习所谓的 “identity effects” 时的一般化特性和基本限制。 我们通过两个案例研究来支持我们的理论分析。
- 通过非披露代理实现平衡过滤
本研究旨在解决群体成员身份不可用或不被允许使用时,非披露性地收集与敏感群体平衡的数据样本的问题,并通过采用公平性流程视角和使用少量标记数据训练代理函数来实现。
- NAS 模型在激活和跳连接搜索下的泛化特性
本文研究了神经架构搜索的推广特性,使用混合激活函数、全连接和残差神经网络等搜索空间,推导出神经张量核的最小特征值的上下界,从而建立了基于 SGD 训练的 NAS 的推广误差界,同时提出了一种基于该理论的无需训练的算法,用于指导 NAS 选择 - GAN 生成样本的隐私属性
通过研究生成式对抗网络,我们证明了一定条件下,GAN 生成的样本天然满足一定程度的隐私保障,即 ε,δ 差分私有性。同时,我们研究了对成员身份推断攻击的鲁棒性,并证明了对手的区分能力至少为 O (m^{-1/4})。