跨领域适应性的受控行为模式多样性开放式解发现
基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要,以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案,以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略,而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同,我们的方法不需要学习额外的新颖性检测模型,并通过直接将约束融入行动选择和优化步骤中,避免了任务和新颖性奖励信号的平衡。
Oct, 2023
通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性,我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法,并通过数值实验验证了我们方法的有效性。
Aug, 2023
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
Feb, 2024
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。
Oct, 2023
本论文提出多层次强化学习 (DEHRL) 框架,使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估,结果表明,DEHRL 在四个方面超过了现有技术的基准线。
Nov, 2018
强化学习中的多样技能学习,使用混合专家方法和最大熵目标优化每个专家的上下文分布,以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布,通过标准策略梯度目标有效地训练它们,进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题,通过在挑战性的机器人模拟任务中展示,Di-SkilL 可以学习出多样且高效的技能。
Mar, 2024
通过 Diffusion-guided Diversity(DIDI)这种新方法,提出了一种离线行为生成的方法,该方法旨在从混合的无标签离线数据中学习多样化的技能,通过使用扩散概率模型作为先验知识来指导学习过程并规范策略,通过优化考虑多样性和扩散引导规范化的联合目标,鼓励出现多样的行为同时保持与离线数据的相似性,实验结果表明 DIDI 在四个决策制定领域(推、厨房、人形和 D4RL 任务)中发现了多样化和可区分性的技能,还介绍了技能拼接和技能插值,突显了学习技能空间的通用性,进一步,通过融合外部奖励函数,DIDI 实现了基于奖励的行为生成,促进了从次优数据中学习多样化和最优行为的能力。
May, 2024
本研究提出使用扩散模型来压缩行为多样性强化学习(QD-RL)中成千上万个策略,将存档压缩到单个生成模型中,达到 13 倍的压缩比例,同时恢复 98% 的原始奖励和 89% 的覆盖率。
May, 2023
本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。
Feb, 2020
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。
Nov, 2022