强化学习中的预训练模型调制学习

Jun, 2023

强化学习中的预训练模型调制学习

Learning to Modulate pre-trained Models in RL

Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter

TL;DR本文旨在研究强化学习中的遗忘问题，提出了基于 Learning-to-Modulate 的解决方案，并在 Meta-World 和 DMControl 数据集上进行了实验验证，表明该方法在 Continual-World 基准测试中取得了最优表现。

Abstract

reinforcement learning (RL) has been successful in various domains like robotics, game playing, and simulation. While RL agents have shown impressive capabilities in their specific tasks, they insufficiently adapt to new tasks. In supervised learning, this adaptation problem is address

reinforcement learning pre-training fine-tuning catastrophic forgetting learning-to-modulate

发现论文，激发创造

微调与元强化学习的有效性比较

本文研究使用 meta - 强化学习方法来完成多个视觉基准测试，在评估这些方法时，我们发现在不同的任务上，多任务预训练加微调的性能相当甚至更好，这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单，强大的基线。

Jun, 2022

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

微调强化学习模型其实是一种遗忘缓解问题

通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析，我们表明标准的知识保留技术缓解了这个问题，从而使我们能够充分利用预训练的能力，特别是在 NetHack 中，在人类僧侣场景中我们实现了新的神经模型的最新成绩，从 5K 分提高到超过 10K 分。

Feb, 2024

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

关于在代码的预训练语言模型中使用连续学习以实现针对分布外的泛化

本文提出可解决 Pre-trained language models 在软件代码动态环境下 catastrophic forgetting 问题的五种 continual learning methods，并在两个 downstream tasks 中取得可比较或优越的表现。

May, 2023

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

通过隐式推理理解语言模型中的灾难性遗忘

微调语言模型会在特定任务上产生性能提升，但对其他任务可能造成能力抑制。为了恢复预训练能力，通过对任务进行翻译使其远离语言模型微调分布，发现可以恢复上下文学习能力，并使聊天机器人生成有害内容。

Sep, 2023

持续学习自然语言新任务中预防灾难性遗忘

该论文提出了一种基于知识蒸馏的增量学习方法，利用未标记数据避免灾难性遗忘，该方法在公开基准测试中表现出显著的效果，能够保存已获取的知识，并对增量添加的任务获得良好的性能。

Feb, 2023

在大型语言模型微调中保持上下文学习能力

Pretrained large language models show in-context learning abilities, but fine-tuning on specific tasks destroys this ability due to format specialization. Prompt Tuning with MOdel Tuning (ProMoT) is a two-stage framework that preserves the model's in-context abilities by training a soft prompt for the fine-tuning task and then fine-tuning the model itself with this prompt. ProMoT achieves similar performance on fine-tuned tasks with much less reduction in in-context learning performances while also showing remarkable generalization ability, making it a promising method for building general-purpose capabilities such as grounding and reasoning into LLMs with small but high-quality datasets.

Nov, 2022

使用形式方法反馈对语言模型进行微调

使用自然语言任务描述，通过自动合成基于自动机的控制器，并通过与独立提供的规范进行验证，将预训练语言模型完全自动调优以适应自主系统的应用，从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距，其在自主驾驶等多个任务中显示出有效性，使控制器所满足规范的百分比从 60% 提高到 90%。

Oct, 2023