基于动态记忆的自适应优化

Feb, 2024

Dynamic Memory Based Adaptive Optimization

Balázs Szegedy, Domonkos Czifra, Péter Kőrösi-Szabó

TL;DR优化器记忆机制的研究表明通过引入更多记忆单元以及使其更具自适应性，可提高已知优化器的性能。

Abstract

Define an optimizer as having memory $k$ if it stores $k$ dynamically changing vectors in the parameter space. Classical SGD has memory $0

optimizer memory retrospective learning law correction rllc performance

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

随机优化中的记忆作用

研究使用随机微分方程来研究梯度下降算法中记忆的作用，提出了一种离散时间的算法，实现了从短期到长期的记忆范围，并在凸随机设置中比传统动量法具有更好的稳定性和收敛性。

Jul, 2019

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

学习优化器的训练动态调查

深度学习中优化的关键问题是通过学习优化器来加速优化过程，但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响，研究并对比手动设计和学习优化器的优缺点，提出了关键见解。

Dec, 2023

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

RET-LLM：面向大型语言模型的通用读写内存

提出了一种新的 RET-LLM 框架，它为 LLMs 提供了一个通用的写 - 读内存单元，使它们能够从文本中提取、存储和检索知识，以便进行任务执行。通过 Davidsonian 语义理论，以三元组的形式提取和保存知识，在问答任务中展现出比基线方法更卓越的性能。此外，该框架在处理基于时间的问题回答任务时表现出了强大的性能，展示了它有效处理时态信息的能力。

May, 2023

通过关键动量促进记忆增量 Adam 中的探索

提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

MemLLM: 对 LLMs 进行精调，使用显式读写内存

我们介绍了 MemLLM，这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互，改善了 LLM 在使用存储的知识方面的能力，从而解决了上述挑战。我们的实验结果表明，MemLLM 提高了 LLM 的性能和可解释性，尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。

Apr, 2024