元学习动力语言模型

ICLRMar, 2018

Meta-Learning a Dynamical Language Model

Thomas Wolf, Julien Chaumond, Clement Delangue

TL;DR本研究探讨了单词级别的语言建模任务，并研究了将基于隐藏状态的短期表示与编码在语言模型的动态权重中的中期表示相结合的可能性。我们将语言建模问题转化为在线学习框架，并通过梯度下降训练元学习器以连续更新语言模型权重，扩展了最近在动态演化权重的语言模型上的实验。

Abstract

We consider the task of word-level language modeling and study the possibility of combining hidden-states-based short-term representations with medium-term representations encoded in dynamical weights of a langua

language modeling hidden states dynamical weights online learning-to-learn meta-learner

发现论文，激发创造

元学习快速权重语言模型

本研究提出了一种称为 Fast Weight Layers (FWLs) 的神经组件，通过将梯度更新表示为线性注意力，以更高效的方式提供动态评估的好处。FWLs 可以在训练时应用于模型，因此模型可以学习如何充分利用梯度更新。FWLs 可以轻松地叠加在现有的 Transformer 模型之上，在运行时需要相对较少的额外计算或内存，可以显著提高语言建模的困惑度。

Dec, 2022

语言模型的元学习在线适应

通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。

May, 2023

使用时间语言模型学习动态作者表示

该研究提出一种基于循环语言建模的神经模型，通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势，从而超越了多个基于时间和非时间的语言基线，并学习了随时间变化的有意义的作者表示。

Sep, 2019

层级多尺度神经网络中的连续学习

本研究提出了一个层次化的多尺度语言模型，通过在线元学习方式，使用一个上层模型更新低层模型的权重来编码短时间尺度和长时间尺度的依赖关系，并使用弹性权重一致性作为高层次来防止灾难性遗忘。

May, 2018

用于提高句子表示的动态元嵌入

介绍了一种通过神经网络自行学习嵌入向量的方法 —— 动态元嵌入，该方法在同一模型类别下，在各种任务中实现了最先进的性能，并展示了该技术如何在 NLP 系统中应用嵌入向量。

Apr, 2018

文本的线性动力学系统模型

该研究通过概率隐变量序列模型，使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数，使用所学习到的单词嵌入作为标记任务的特征，在标记任务中实现显著的准确度改进，并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型，降低了其训练时间和困惑度。

Feb, 2015

从静态到动态：大型语言模型的持续学习框架

DynaMind 是一种新颖的连续学习框架，旨在解决大语言模型（LLMs）的训练困难、知识融入问题，并提高输出准确性。通过引入记忆机制和模块化操作符，DynaMind 能够有效克服这些挑战。

Oct, 2023

基于元学习的深度在线学习：模型强化学习中的持续自适应

本文旨在开发一种方法，从传入的数据流中使用深度神经网络模型进行连续的在线学习，使用随机梯度下降算法来更新模型参数，并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习，以适应预测模型关键控制任务中的连续快速自适应。

Dec, 2018

使用赫比快速权重进行元学习

本文提出了一种用于元学习的模型，将近期的神经网络方法与早期的联想记忆思想统一起来。该模型通过慢速权重和 Hebbian 学习规则构建快速权重，在 Omniglot、Mini-ImageNet 和 Penn Treebank 等数据集上取得了最先进的结果。

Jul, 2018

神经序列模型的动态评估

通过梯度下降机制使神经序列模型适应最近的历史，从而提高模型的性能和有效性，在多个数据集上表现出了优于现有模型适应方法的结果。

Sep, 2017