分布式学习遇上图结构采样
本文介绍了基于 Wasserstein 距离的 PAC-Bayesian 泛化边界,并从分别适用于批量学习与独立同分布数据和在线学习的角度进行了证明,并获得了用于 SRM 的可优化培训目标。
Jun, 2023
通过 ACOWA 技术,在分布式训练中,通过额外的通信轮次获得更准确的近似解,相较于其他分布式算法,对于稀疏分布式逻辑回归,ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。
Jun, 2024
本文研究学习贝叶斯网结构的贝叶斯模型平均方法,提出了新算法,包括第一个能够根据精确结构后验有效采样有向无环图的算法。 DAG 样本可以用来构造任何特征的后验估计器,在理论上证明了我们的估计器的良好性质,并在实证上表明估计器明显优于先前最先进方法的估计器。
Jan, 2015
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
贝叶斯神经网络通过学习模型参数的后验分布来解决认知不确定性问题。使用该后验进行抽样和加权网络,从而形成一个被称为贝叶斯集合的集合模型。相对于个别网络,深度集合可以受益于误差抵消效应,提高预测性能。本文论证了贝叶斯集合的抽样和加权方法并不适合增加泛化性能,因为它们无法实现误差抵消效应。相反,通过优化 PAC-Bayesian 泛化约束得到模型的加权平均值可以提高泛化性能。这种加权方法需要考虑模型之间的相关性,可以通过最小化串级损失来实现。PAC-Bayesian 加权方法增强了对相关模型和性能较低模型的稳健性,因此我们可以安全地添加来自同一学习过程的多个模型到集合中,而不是使用早停法选择单一的权重配置。本研究在四个不同的分类数据集上给出了实证结果,表明尽管计算代价较高,但来自文献中的最先进的贝叶斯集合并没有改进普通权重的深度集合,并且无法与通过优化串级损失的深度集合相匹配,后者还具有非空泛化保证。
Jun, 2024
在多跳无线网络中,通过分布式可扩展的采样和传输策略以及图神经网络结构,优化采样和远程估计研究的主要问题包括缓存并从其他代理处获得最新样本、无线冲突通道和各个网络节点之间的决策制定。
Apr, 2024
通过 PAC-Bayes 和算法稳定性的结合研究了随机梯度下降算法的泛化误差,提出了一种基于后验优化的自适应采样算法,并在基准数据集上进行评估。结果表明,相较于均匀采样,自适应采样既可以更快地降低经验风险,也可以提高样本外准确性。
Sep, 2017
利用差异的理念,我们对批处理情景下学习漂移分布的问题进行了新的分析,并证明了基于假设集和分布的差异的 Rademacher 复杂度的学习界限,包括漂移 PAC 情景和跟踪情景。 我们提出了一种新算法,利用这些学习保证,我们展示了该算法可以被表述为一个简单的 QP。
May, 2012
我们研究了在时间受限环境下的分布式深度学习模型训练,提出了一种新算法,通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量,以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法,分别称为模型级梯度加权平均算法(MGRAWA)和层级梯度加权平均算法(LGRAWA),其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面,我们证明了该方法在凸性和非凸性设置下的收敛保证。然后,我们通过实验证明,我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究,以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后,我们报告说,与现有基线方法相比,我们的方法需要较少的通信频率和分布式更新。
Mar, 2024