重生强化学习：重复利用过去计算以加速进展

Jun, 2022

重生强化学习：重复利用过去计算以加速进展

Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress

Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare

TL;DR提出转世强化学习理论作为强化学习（RL）研究的另一种工作流程或问题类别，以便能够在设计迭代之间或不同代理之间重复使用或转移先前的计算工作（例如，学习策略）; 研究关注现有子优政府的有效传输，并提出了一种简单的算法来解决其限制，最后，在 Atari 2600 游戏，挑战性的互动任务以及导航平流层气球等问题上展现了转世 RL 与 tabula rasa RL 相比的优势，证明这是一种可能提高 RL 实际应用和进一步民主化 RL 的另一种方法。

Abstract

Learning tabula rasa, that is without any prior knowledge, is the prevalent workflow in reinforcement learning (RL) research. However, RL systems, when applied to large-scale settings, rarely operate

reinforcement learning tabula rasa reincarnating rl policy transfer real-world adoption

发现论文，激发创造

多智能体强化学习中的选择性再生：减量化、重复利用、循环利用

本文研究了在多智能体环境中，某些智能体重新利用以前的计算作为训练的一种方式，证明了在全合作多智能体环境中，选择性转生可以导致比全新训练更高的回报和比全面转世更快的收敛速度，但在异构系统中选择智能体的选择至关重要。

Mar, 2023

深度强化学习中的预训练调查

该论文系统地评估了目前深度强化学习领域中采用的预训练方法，提出了分类体系、讨论了各个方面，并关注了未来可能遇到的挑战和需要探索的方向。

Nov, 2022

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

伪重演：实现深度强化学习而不会发生灾难性遗忘

提出了一种利用深度生成网络结合图像分类和强化学习领域中的连续学习思想的模型，该模型具有双重记忆系统和伪回放系统，能够在 Atari 2600 游戏中完成顺序学习而不会遗忘前面的任务，并且随着任务数量的增加不需要额外的存储要求，存储原始数据或重新访问过去的任务。

Dec, 2018

超越 Tabula-Rasa: 一种用于物理嵌入式 3D Sokoban 的模块化强化学习方法

该论文探讨了将模块化 RL 方法应用于 Mujoban 任务的可行性，并证明了模块化 RL 方法比仅有一个单一 RL 代理的方法更加优越。

Oct, 2020

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

深度强化学习的关键问题包括忘记和样本效率低下，该研究通过发现并利用空间信息推导任务特定规则，提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理，它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。

Nov, 2023

多智能体强化学习中避免重复探索

在多智能体强化学习领域，内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法，以应对神经网络统计近似器的有限表达能力所带来的挑战，并有效控制多次重复访问任务空间的现象，在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能，尤其是在稀疏奖励设置下。

Aug, 2023