聚变多样性：基于结果导向的课程强化学习与分歧的超出分布

Oct, 2023

聚变多样性：基于结果导向的课程强化学习与分歧的超出分布

Diversify & Conquer: Outcome-directed Curriculum RL via Out-of-Distribution Disagreement

Daesol Cho, Seungjae Lee, H. Jin Kim

TL;DR提出了一种新的课程强化学习方法 D2C，该方法通过对目标条件分类器进行多样化，确保分类器对于来自分布之外的状态产生分歧，从而探索未知区域并定义一种任意目标条件内在奖励信号，从而产生适应性良好的中间目标序列，以自动探索并征服未知区域。实验结果表明，D2C 在定量和定性方面均优于之前的课程强化学习方法。

Abstract

reinforcement learning (RL) often faces the challenges of uninformed search problems where the agent should explore without access to the domain knowledge such as characteristics of the environment or external rewards. To tackle these challenges, this work proposes a new approach for <

reinforcement learning curriculum rl diversify for disagreement & conquer goal-conditional classifiers bipartite matching

发现论文，激发创造

通过不确定性和时间距离感知的课程目标生成的以结果为导向的强化学习

本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法，通过解决二分图匹配问题，为课程提供精确的指导，从而更好地解决了先前课程 RL 方法中存在的问题，并在数量和质量上显著优于这些方法。

Jan, 2023

尝试时重来，而不是尝试更久：自适应课程学习的先验学习

该研究论文提出了一种两阶段自适应教学方法，以提高深度强化学习（DRL）智能体的性能，主要包括使用过程生成任务、自动课程学习（ACL）和探索课程等关键词。

Apr, 2020

利用混合专家的课程强化学习获取多样化技能

强化学习中的多样技能学习，使用混合专家方法和最大熵目标优化每个专家的上下文分布，以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布，通过标准策略梯度目标有效地训练它们，进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题，通过在挑战性的机器人模拟任务中展示，Di-SkilL 可以学习出多样且高效的技能。

Mar, 2024

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

基于演化课程训练的 DRL 导航系统训练

本文介绍了一种名为进化课程训练的新方法，以应对机器人避碰中经常出现的一些挑战，包括在结构化环境中适应多种行人，本方法能够提高深度强化学习模型在此类复杂场景中的成功率和降低平均碰撞率。

Jun, 2023

逆向前馈课程学习在强化学习中的极端样本和演示效率优化

采用逆序课程和正序课程相结合的方法，RFCL，在学习从示范中获得显著改进，并且能够解决过去无法解决的需要高精度和控制的任务。

May, 2024

深度强化学习中具有任务关联的近端课程

基于近发展区概念，我们提出了一种名为 ProCuRL-Target 的新型课程计划，它可以在复杂任务的目标分布上平衡选择任务的需要，通过利用任务之间的相关性推动代理的学习，从而加速深度强化学习代理的训练过程。

May, 2024

强化学习领域的课程学习：框架与综述

本文提出了强化学习中的课程学习框架，并使用此框架对现有的课程学习方法进行分类和研究，以找出未解决的问题并提出未来研究的方向。

Mar, 2020

变分课程增强学习用于无监督技能发现

基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出，但由于训练技能的顺序会在很大程度上影响样本效率，对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习（VCRL）的方法，将变分增强视为内在奖励函数的目标条件强化学习中的课程学习，并基于信息理论提出了一种无监督技能发现的新方法，称为值不确定性变分课程（VUVC）。我们证明，在一定的正则条件下，与均匀课程相比，VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性，同时以零次设定下的真实世界机器人导航任务为例，证明了通过我们方法发现的技能能够成功完成任务，并且将这些技能与全局规划器相结合可以进一步提高性能。

Oct, 2023

多样性应对不确定性：学习多样化行为以实现高效适应和迁移

基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要，以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案，以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略，而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同，我们的方法不需要学习额外的新颖性检测模型，并通过直接将约束融入行动选择和优化步骤中，避免了任务和新颖性奖励信号的平衡。

Oct, 2023