微调强化学习模型其实是一种遗忘缓解问题

Feb, 2024

微调强化学习模型其实是一种遗忘缓解问题

Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski, Michał Bortkiewicz, Michał Zając...

TL;DR通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析，我们表明标准的知识保留技术缓解了这个问题，从而使我们能够充分利用预训练的能力，特别是在 NetHack 中，在人类僧侣场景中我们实现了新的神经模型的最新成绩，从 5K 分提高到超过 10K 分。

Abstract

fine-tuning is a widespread technique that allows practitioners to transfer pre-trained capabilities, as recently showcased by the successful applications of foundation models. However, fine-tuning →

fine-tuning reinforcement learning pre-training knowledge retention techniques state-of-the-art

发现论文，激发创造

强化学习中的预训练模型调制学习

本文旨在研究强化学习中的遗忘问题，提出了基于 Learning-to-Modulate 的解决方案，并在 Meta-World 和 DMControl 数据集上进行了实验验证，表明该方法在 Continual-World 基准测试中取得了最优表现。

Jun, 2023

强化学习中的行为转移：超越微调

该文讨论用 Behavior Transfer（BT）技术进行强化学习中的知识迁移，探讨其对于解决复杂任务的效率提升，主要研究内容包括：神经网络权重细调、预训练策略、探索性能及内在动机引擎等。

Feb, 2021

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

对话响应模型预训练微调中的遗忘问题分析

本研究探讨预训练 - 微调框架中的微调阶段如何改变预训练神经语言生成模型的行为，发现标准微调后模型遗忘了某些重要的语言生成技巧，提出了一种直观的微调策略 “混合回顾”，能够缓解模型遗忘现象，最终讨论了对话模型的有趣行为及其含义。

Oct, 2019

通过隐式推理理解语言模型中的灾难性遗忘

微调语言模型会在特定任务上产生性能提升，但对其他任务可能造成能力抑制。为了恢复预训练能力，通过对任务进行翻译使其远离语言模型微调分布，发现可以恢复上下文学习能力，并使聊天机器人生成有害内容。

Sep, 2023

通过因果推断保留预训练语言模型中的常识知识

通过在因果图上探索，本文发现灾难性遗忘的关键在于缺失来自预训练数据的因果影响，提出了一种统一的微调目标以恢复因果关系，将该方法实现在常识 QA 上的结果表明其有效性。

Jun, 2023

预训练模型中逐步低秩更新中遗忘的实证分析

本文研究了使用低秩适应（LoRA）将预训练模型与现有权重进行合并的设置，并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响，发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为，这是之前的连续学习研究中尚未观察到的现象。

May, 2024

微调与元强化学习的有效性比较

本文研究使用 meta - 强化学习方法来完成多个视觉基准测试，在评估这些方法时，我们发现在不同的任务上，多任务预训练加微调的性能相当甚至更好，这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单，强大的基线。

Jun, 2022

永远不止于学习：机器人强化学习中微调的有效性

本论文提出了一种通过强化学习进行增量式 fine-tuning 的方法，可以有效地将图像为基础的机器人操作策略适应到新的环境、物体和感知中，在不到数据学习任务的 0.2％的情况下实现适应，这种方式可以大幅提高任务的性能表现，并且在连续学习场景下仍保持一致稳定。

Apr, 2020