ADAPTER-RL：使用强化学习对任意代理进行自适应

Nov, 2023

ADAPTER-RL：使用强化学习对任意代理进行自适应

ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning

Yizhao Jin, Greg Slabaugh, Simon Lucas

TL;DR深度强化学习代理人在适应训练分布之外的任务时面临着过拟合、灾难性遗忘和样本效率问题。本文探讨了适配器在强化学习中的应用，提出了一种创新的适应策略，在 nanoRTS 环境中实验，提高了训练效率并改进了基础代理人，同时兼容预训练神经网络和基于规则的代理人，提供了融合人类专业知识的方法。

Abstract

deep reinforcement learning (DRL) agents frequently face challenges in adapting to tasks outside their training distribution, including issues with over-fitting, catastrophic forgetting and sample inefficiency. Although the application of →

deep reinforcement learning adapters training efficiency base-agent improvement nanorts environment

发现论文，激发创造

基于深度强化学习的适应性和泛化性方法综述

本文调查研究 Deep Reinforcement Learning (DRL) 中关于任务和领域适应以及泛化的最新发展，讨论未来如何增强算法的适应性和泛化能力，以解决更广泛的实际问题。

Feb, 2022

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter 通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在 RL 代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在 Crafter 环境中实验表明 RLAdapter 超过了基线模型，且我们的框架下的代理展现出了常识行为。

Sep, 2023

开放式任务空间中的人类时间尺度适应

本文介绍了一种训练 RL 代理器的方法，通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表，该代理器可以快速适应开放式的 3D 问题，并具有自适应性。

Jan, 2023

机器人控制的自适应强化学习

深度强化学习在模拟环境中取得了显著的成功，但在设计机器人控制器方面的应用仍然有限，由于其单任务导向性和对环境变化的适应能力不足。为了克服这些限制，我们提出了一种新颖的自适应智能体，利用迁移学习技术在不同任务和环境条件下动态调整策略。该方法经过了齐腾博仿真挑战的验证，其中多任务能力和环境适应能力至关重要。智能体使用基于 IsaacGym 的定制化高度并行化的模拟器进行训练，通过零样本迁移在真实世界中飞行气球以解决各种任务。我们在 https://github.com/robot-perception-group/adaptive_agent/ 上分享我们的代码。

Apr, 2024

AdaRL：迁移强化学习中的适应什么、在哪里和如何适应

提出了一种基于图表示学习的 RL 适应策略 AdaRL，只需少量样本即可可靠且高效地适应环境变化，结果表明 AdaRL 在 Cartpole 和 Atari 游戏中的表现良好。

Jul, 2021

通过学习适应原则进行快速的开放式世界适应

通过使用简洁而有效的新方法 NAPPING（Novelty Adaptation Principles Learning），我们的研究展示了深度强化学习（DRL）代理可以在各个领域快速有效地适应各种新情况。

Dec, 2023

一个在 microRTS 中夺冠的深度强化学习智能体

RAISocketAI 是第一个赢得 IEEE 微型 RTS 比赛的深度强化学习代理，其具有竞争力的表现成为未来微型 RTS 比赛的基准和深度强化学习研究的起点。通过迭代微调基本策略和传递学习到特定地图来提高 RAISocketAI 的表现，并将该策略用于经济训练未来的深度强化学习代理。使用行为克隆进行模仿学习并通过深度强化学习进行模型微调，已被证明是一种高效的引导模型具有竞争性行为的方法。

Feb, 2024

基于网络服务接近度的强化学习智能体领域适应

本研究探讨了在 6G 网络中服务需求的动态和演化性如何促使电信行业考虑采用自适应强化学习代理来控制网络服务组合，并提出了一种简单的启发式方法来评估新服务和现有服务之间的相似度，从而快速适应于变化的服务类型并实现显著的计算效益和成本效益。

Mar, 2023

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

利用生态系统智能体提高强化学习的泛化能力和消除灾难性遗忘

本文提出了一种新颖的方法，利用一种智能体生态系统来适应不同的环境，避免了强化学习在训练环境不同时过度拟合和遗忘之间的两难困境。

Apr, 2022