跨领域适应性的受控行为模式多样性开放式解发现

Sep, 2022

跨领域适应性的受控行为模式多样性开放式解发现

Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns for Cross-Domain Adaptation

Kang Xu, Yan Ma, Wei Li, Bingsheng Wei

TL;DR通过行为约束训练多样化策略，提高强化学习在不同环境下的泛化能力。

Abstract

While reinforcement learning can achieve impressive results for complex tasks, the learned policies are generally prone to fail in downstream tasks with even minor model mismatch or unexpected perturbations. Recent works have demonstrated that a →

reinforcement learning policy population behavior regulation diversity-driven generalization

发现论文，激发创造

多样性应对不确定性：学习多样化行为以实现高效适应和迁移

基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要，以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案，以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略，而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同，我们的方法不需要学习额外的新颖性检测模型，并通过直接将约束融入行动选择和优化步骤中，避免了任务和新颖性奖励信号的平衡。

Oct, 2023

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

多样性驱动可扩展的层次强化学习

本论文提出多层次强化学习 (DEHRL) 框架，使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估，结果表明，DEHRL 在四个方面超过了现有技术的基准线。

Nov, 2018

利用混合专家的课程强化学习获取多样化技能

强化学习中的多样技能学习，使用混合专家方法和最大熵目标优化每个专家的上下文分布，以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布，通过标准策略梯度目标有效地训练它们，进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题，通过在挑战性的机器人模拟任务中展示，Di-SkilL 可以学习出多样且高效的技能。

Mar, 2024

滴滴：离线行为生成的扩散引导多样性

通过 Diffusion-guided Diversity（DIDI）这种新方法，提出了一种离线行为生成的方法，该方法旨在从混合的无标签离线数据中学习多样化的技能，通过使用扩散概率模型作为先验知识来指导学习过程并规范策略，通过优化考虑多样性和扩散引导规范化的联合目标，鼓励出现多样的行为同时保持与离线数据的相似性，实验结果表明 DIDI 在四个决策制定领域（推、厨房、人形和 D4RL 任务）中发现了多样化和可区分性的技能，还介绍了技能拼接和技能插值，突显了学习技能空间的通用性，进一步，通过融合外部奖励函数，DIDI 实现了基于奖励的行为生成，促进了从次优数据中学习多样化和最优行为的能力。

May, 2024

使用潜在扩散模型生成行为多样的策略

本研究提出使用扩散模型来压缩行为多样性强化学习（QD-RL）中成千上万个策略，将存档压缩到单个生成模型中，达到 13 倍的压缩比例，同时恢复 98% 的原始奖励和 89% 的覆盖率。

May, 2023

基于群体的强化学习中有效的多样性

本文介绍了一种基于行为多样性的优化方法，该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积，并通过在线学习技术适应多样性程度，从而提高探索能力，而不会降低性能。

Feb, 2020

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022