- 重新思考模型再盆地与线性模态连通性
SGD 解决方案、模型再聚类体制、模型平均化、匹配算法和剪枝技术是该篇论文的关键词和主要研究领域。
- 模型平均中的稳定性和 L2 惩罚
该研究纸通过引入稳定性及统计学习理论,对模型平均进行了研究,提出了一个不限制模型权重的 L2 惩罚模型平均方法,并证明了其具有稳定性和一致性。
- 联邦学习在分布式多模遥感档案中的应用
本文提出了一种新颖的多模式联邦学习框架,旨在从分散的多模式遥感图像档案中学习用于遥感图像分类问题,该框架由多模式融合(MF)、特征白化(FW)和互信息最大化(MIM)三个模块组成,实验结果表明,相对于迭代模型平均(IMA),所提出的框架有效 - 理解异质数据联邦学习中的模型平均
通过对几何属性的可视化和预测误差的分解,本文研究了模型平均在联邦学习中成功的原因,并提出采用迭代移动平均法来减少预测误差并限制最大距离的提高精度和训练速度。
- DART: Diversify-Aggregate-Repeat 训练改进神经网络的泛化性能
本文提出了一种名为 DART 的训练策略,它先使用不同的增强(或域)训练不同的模型,然后将它们的权重聚合起来,以获得更好的泛化性能。该方法不仅在内部领域泛化方面取得了改进,而且在流行的 DomainBed 框架中,我们还展示了域泛化基准的 - 评估现有技术,预测集成和元学习策略用于模型融合
本篇论文研究了如何将基于 Exponential-Smoothing-Recurrent Neural Network (ES-RNN) 的模型和 ensemble learning 技术相结合,相比于其他基于统计或机器学习的 ensemb - ICLR本地学习,整体纠错:一种用于训练图神经网络的分布式算法
本研究提出了一种基于图神经网络的、名称为 $ ext {{Learn Locally, Correct Globally}}$ (LLCG) 的、分布式算法,通过本地训练减少通信和内存开销,并利用全局服务器修正减少性能退化问题。实验结果显示 - 平均集成:提升领域泛化中的模型选择和性能
通过在训练过程中对模型进行平均和模型集成的方法,提出了一种新颖的领域泛化模型,能够显著提高模型的稳健性和泛化能力。同时,通过应用偏差 - 方差平衡的理论,解释了该方法有效性的原因。
- AAAI模型平均中的元学习 PAC-Bayes 先验
提出两种数据算法来获取适当的模型平均先验。
- AAAI在最优因子范围内找到所有贝叶斯网络结构
提出了一种基于近似算法的模型平均方法,该方法仅考虑可靠的模型且能在数据量较大的情况下高效地进行比较。
- AAAI多数据中心协作深度学习
本文讨论了如何在分布式环境下利用模型平均策略进行深度学习的训练,提出了采用循环学习率和增加本地模型训练轮数两种策略的方法,并在实验中证明了该方法在多个数据中心下具有竞争性的性能。
- 递归自助贝叶斯结构学习
本研究提出了一种使用非参数 bootstrap 递归方法解决具有数百个变量的 Bayesian 结构学习问题的方法,该方法涵盖了模型平均和模型选择,并以一种新颖的方式将 bootstrap 与约束性学习相结合,以解决独立性检验中的错误敏感性 - AAAI并行重启 SGD:更快收敛,更少通信 —— 揭秘深度学习中模型平均的原理
本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销,并阐述该方法与并行小批量随机梯度下降(SGD)在训练时间上的相似性。
- 快照集成: 1 次训练,多个模型
本文提出了一种名为 ' 快照集成 ' 的新技术,可以实现在不增加训练成本的情况下,通过在一个单一的神经网络中收敛到几个局部极小值并保存模型参数的方法,同时通过循环学习率表达式,获得重复快速收敛的能力,实验结果表明,这种方法可有效地降低误差率 - 桥式抽样教程
本文介绍了一种可靠而相对简单的取样方法 ——bridge sampling, 以及它在近期较为热门的强化学习模型里的应用,证明其在数学心理学中是一种可行的取样估计方法。
- ICML草图岭回归:优化视角、统计视角和模型平均
本研究探讨了经典草稿和黑塞草稿用于解决矩阵 Ridge 回归问题的统计和优化影响,并发现模型平均可大大降低由于草稿造成的统计风险,从而迅速获得近乎最优的解决方案。
- ACL用于语言建模的可伸缩循环神经网络贝叶斯学习
本文提出了基于贝叶斯学习的算法,通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习,从而提高模型在各个任务上的表现。
- 并行 SGD:何时使用平均有帮助?
研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法,探讨了模型平均作为方差减少机制的两种方式,并说明了平均频率对收敛的影响,对于凸目标函数,频繁平均的好处依赖于梯度方差包络,在非凸目标函数中,该好处取决于多个全局最优 - 基于增量式 LSTM 的对话状态跟踪器
本文提出了一种基于 LSTM 网络,利用自动语音识别假设直接跟踪状态的增量式对话状态跟踪器,并分析 ASR 置信度、包括在训练数据中的转录文本和模型平均等方面对模型性能的贡献。
- 使用模型平均法并行训练深度神经网络的实验
本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “N