强化学习中的预训练模型调制学习
本文研究使用 meta - 强化学习方法来完成多个视觉基准测试,在评估这些方法时,我们发现在不同的任务上,多任务预训练加微调的性能相当甚至更好,这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单,强大的基线。
Jun, 2022
本论文提出了一种召回和学习机制,它采用了多任务学习的思想,联合学习预训练任务和下游任务,通过先简单地回忆预训练任务的知识,然后逐渐关注下游任务的学习,以实现减少忘记的微调。实验表明,该方法在 GLUE 基准上实现了最新的性能,并为 NLP 社区提供了开源的 RecAdam 优化器。
Apr, 2020
通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析,我们表明标准的知识保留技术缓解了这个问题,从而使我们能够充分利用预训练的能力,特别是在 NetHack 中,在人类僧侣场景中我们实现了新的神经模型的最新成绩,从 5K 分提高到超过 10K 分。
Feb, 2024
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
本文提出可解决 Pre-trained language models 在软件代码动态环境下 catastrophic forgetting 问题的五种 continual learning methods,并在两个 downstream tasks 中取得可比较或优越的表现。
May, 2023
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019
微调语言模型会在特定任务上产生性能提升,但对其他任务可能造成能力抑制。为了恢复预训练能力,通过对任务进行翻译使其远离语言模型微调分布,发现可以恢复上下文学习能力,并使聊天机器人生成有害内容。
Sep, 2023
该论文提出了一种基于知识蒸馏的增量学习方法,利用未标记数据避免灾难性遗忘,该方法在公开基准测试中表现出显著的效果,能够保存已获取的知识,并对增量添加的任务获得良好的性能。
Feb, 2023
Pretrained large language models show in-context learning abilities, but fine-tuning on specific tasks destroys this ability due to format specialization. Prompt Tuning with MOdel Tuning (ProMoT) is a two-stage framework that preserves the model's in-context abilities by training a soft prompt for the fine-tuning task and then fine-tuning the model itself with this prompt. ProMoT achieves similar performance on fine-tuned tasks with much less reduction in in-context learning performances while also showing remarkable generalization ability, making it a promising method for building general-purpose capabilities such as grounding and reasoning into LLMs with small but high-quality datasets.
Nov, 2022
使用自然语言任务描述,通过自动合成基于自动机的控制器,并通过与独立提供的规范进行验证,将预训练语言模型完全自动调优以适应自主系统的应用,从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距,其在自主驾驶等多个任务中显示出有效性,使控制器所满足规范的百分比从 60% 提高到 90%。
Oct, 2023