我们并不需要亚当，我们只需要夏娃：关于双学习速率的差异和更多内容

Aug, 2023

我们并不需要亚当，我们只需要夏娃：关于双学习速率的差异和更多内容

We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual Learning Rate And Beyond

Afshin Khadangi

TL;DR通过应用不同的学习速率到梯度的不同组成部分，具有增强速度估计 (EVE) 的新颖方法创新性地优化了深度神经网络，在解决传统单一学习速率方法所面临的挑战上实现了更精细的控制和更快的收敛。此方法利用适应学习环境的动量项，更高效地导航复杂的损失表面，从而实现了更好的性能和稳定性。广泛的实验证明，EVE 在各种基准数据集和架构上明显优于现有的优化技术。

Abstract

In the rapidly advancing field of deep learning, optimising deep neural networks is paramount. This paper introduces a novel method, Enhanced Velocity Estimation (EVE), which innovatively applies different learning rate

deep learning neural networks enhanced velocity estimation learning rates optimisation techniques

发现论文，激发创造

Eve: 一种基于梯度的优化方法，具有局部和全局自适应学习率

本文提出了一种名为 Eve 的算法，它是一种改进的 Adam 算法，可以对每个参数单独进行自适应梯度和全局梯度的学习率调整，实验证明 Eve 在深度学习模型的训练中表现优秀。

Nov, 2016

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

本文介绍了一种高效的视觉 - 语言基础模型 EVE，该模型通过一个统一的预训练任务，在共享的 Transformer 网络中编码了视觉和语言，并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模，EVE 实现了图像像素和文本标记的信号重构，从而达到快速训练和更好的下游性能。

Aug, 2023

基于分解扩散蒸馏的视频编辑

Emu Video Edit (EVE) 是一种不依赖于任何有监督视频编辑数据的视频编辑模型，通过分别训练图像编辑适配器和视频生成适配器，并将两者连接到同一个文本到图像模型上，然后引入一种新的无监督蒸馏过程 Factorized Diffusion Distillation 来使适配器在视频编辑方面达到一致，通过联合蒸馏的方式精确地编辑每一帧，同时通过视频生成适配器确保帧与帧之间的时序一致性，并展示了该方法在解锁其他能力方面的潜力。

Mar, 2024

神经优化方程、衰减函数和学习率时间表的联合演化

我们提出了一种新的双联合搜索空间，以及一种完整性检查，用于自动化找到深度学习优化器的过程；我们通过使用我们提出的基于粒子的仅突变的遗传算法在 CIFAR-10 数据集上评估了候选优化器，并将最终优化器迁移到 CIFAR-100 和 TinyImageNet 的大规模图像分类中，同时还对 Flowers102、Cars196 和 Caltech101 使用 EfficientNetV2Small 进行微调，发现多个优化器、学习率调度和 Adam 变体在图像分类任务中表现优于 Adam 和其他标准的深度学习优化器。

Apr, 2024

AdamNODEs：当神经常微分方程遇到自适应矩时估计

提出一种新的模型 AdamNODEs，用来控制时间步中加速度的变化，从而提高 neural ODEs 的训练效果和稳定性，该模型比传统的基于动量的 neural ODEs 和其他方法具有更好的性能。

Jul, 2022

EVE: 基于深度图引导和时序一致性约束的高效零样本基于文本的视频编辑

通过深度图和时序一致性约束，提出了一种强大且高效的零样本视频编辑方法 EVE，能够以可承受的计算和时间成本派生出令人满意的视频编辑结果，并构建了新的基准 ZVE-50 数据集以促进未来研究。

Aug, 2023

利用方差迁移和学习速率自适应增量式生长神经网络加速训练

通过考虑参数化和优化策略对训练动态的影响，我们开发了一种高效增长神经网络的方法，该方法动态稳定权重、激活和梯度缩放，提出一种学习率适应机制来解决不平衡训练问题，并取得了与训练大型固定模型相当或更好的准确性和训练速度加快。

Jun, 2023

大规模深度网络的变分学习有效性

我们通过大量的证据反驳了普遍观点，即变分学习对于大型神经网络无效。我们展示了一种名为改进变分在线牛顿（IVON）的优化器，在训练 GPT-2 和 ResNets 等大型网络时，始终能够与 Adam 相匹配或胜过它。IVON 的计算成本与 Adam 几乎相同，但其预测的不确定性更好。我们展示了 IVON 的几个新用例，其中我们改善了大型语言模型的微调和模型合并，准确预测了泛化误差，并忠实地估计了对数据的敏感性。我们发现了支持变分学习有效性的压倒性证据。

Feb, 2024

利用过去的在线调整进行快速深度强化学习

我们提出了 “短暂价值调整（Ephemeral Value Adjustments，EVA）”：一种允许深度强化学习代理快速适应其回放缓冲区中的经验的方法。EVA 通过估计从当前状态附近的回放缓冲区中的经验组成的价值函数来转移神经网络预测的价值。EVA 结合了围绕将类似于情节记忆结构组合到强化学习代理中的一些最近想法：基于插槽的存储、基于内容的检索和基于记忆的规划。我们展示了在演示任务和 Atari 游戏上 EVA 的执行效果。

Oct, 2018

不断发展的评估器 (EV3): 为知识蒸馏的灵活可靠元优化而努力

我们介绍了一种名为 EV3 的新型元优化框架，通过直观的探索 - 评估 - 调整协议来高效训练可扩展的机器学习模型。利用 EV3，我们在每次迭代中探索各种模型参数更新，使用相关评估方法对其进行评估，并根据最佳更新和以前的进展历史来调整模型，从而提供了相当的灵活性，无需对感兴趣的关键目标施加严格的约束条件。此外，该协议欢迎具有有偏梯度的更新，并允许使用各种损失函数和优化器。我们将 EV3 应用于知识蒸馏，其实验结果显示了 EV3 在安全探索模型空间方面的能力，并暗示了由于其固有的灵活性和适应性，它在许多领域中的潜在适用性。

Oct, 2023