基于动态记忆的自适应优化
研究使用随机微分方程来研究梯度下降算法中记忆的作用,提出了一种离散时间的算法,实现了从短期到长期的记忆范围,并在凸随机设置中比传统动量法具有更好的稳定性和收敛性。
Jul, 2019
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
Oct, 2023
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
深度学习中优化的关键问题是通过学习优化器来加速优化过程,但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响,研究并对比手动设计和学习优化器的优缺点,提出了关键见解。
Dec, 2023
通过引入层次循环神经网络优化算法和基于元学习的小任务集,实现了一个新的学习梯度下降优化器,解决了在更大的问题上扩展能力不足和泛化能力受限问题,并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。
Mar, 2017
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
Jul, 2023
本文研究深度神经网络的训练动态,提出旋转变量优化器,通过移除传递相应收敛期可达到与原始变量优化器类似的性能,降低了对学习率热身的需求,并改善了对网络归一化不足的优化。
May, 2023
我们介绍了 MemLLM,这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互,改善了 LLM 在使用存储的知识方面的能力,从而解决了上述挑战。我们的实验结果表明,MemLLM 提高了 LLM 的性能和可解释性,尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。
Apr, 2024