环视优化器: $k$ 步内，平均 1 步

Jun, 2023

Lookaround Optimizer: $k$ steps around, 1 step average

Jiangtao Zhang, Shunyu Liu, Jie Song, Tongtian Zhu, Zhengqi Xu...

TL;DR本研究提出了 Lookaround 优化器，其通过迭代使用环绕步骤和平均步骤的方式训练多个网络，实现了促进网络多样性与提升泛化能力的效果，理论分析和实验表明该优化器优于现有方法。

Abstract

weight average (WA) is an active research topic due to its simplicity in ensembling deep networks and the effectiveness in promoting generalizati

weight average lookaround optimizer generalization deep networks

发现论文，激发创造

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

深度神经网络的分层加权平均

本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架，通过整合在线和离线平均方法，它能够同时提高收敛速度和泛化性能，同时解决了现有 WA 方法面临的问题。实验证明，HWA 明显优于现有方法。

Apr, 2023

多元加权平均用于区分分布外泛化

本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA)，通过多次独立训练获得的模型权重进行平均，以增加模型的功能多样性，并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因，并通过实验证明，DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。

May, 2022

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

回溯优化器：k 步回溯，1 步前进

通过结合 Lookahead 优化器和锐度感知最小化技术，使用 Lookbehind 方法对深度神经网络进行训练，实现更好的稳定性和损失锐度的权衡，以提高泛化性能、鲁棒性和遗忘容忍度。

Jul, 2023

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

WASH：使用通信高效的权重重排，然后平均训练你的集成模型

WASH 是一种新的分布式方法，用于训练模型集合以进行权重平均化，实现了最先进的图像分类准确性。

May, 2024

使用避免等待的群组平均法在并行随机优化中突破（全球）界限

本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法，采用子集权重交换的方式减少全局通信，优化分布式深度学习中的性能问题，相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。

Apr, 2020

优化最优加权平均：高效分布式稀疏分类

通过 ACOWA 技术，在分布式训练中，通过额外的通信轮次获得更准确的近似解，相较于其他分布式算法，对于稀疏分布式逻辑回归，ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。

Jun, 2024

通过较大的学习速率探索领域泛化的平坦极小值

通过引入称为 Lookahead 的训练策略，结合了大学习率和权重插值的方法，提高了模型在域泛化中的泛化能力，并且在分类和语义分割域泛化基准上取得了最先进的性能。

Sep, 2023

环视优化器: $k$ 步内， 平均 1 步

环视优化器: $k$ 步内，平均 1 步