目标条件的强化学习中通过自适应技能分配实现目标探索
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
我们提出了一种基于目标条件的强化学习算法,结合了解缠绕的可达性规划(REPlan),用于解决时间延展任务,在模拟和真实世界任务中,REPlan 显著优于之前最先进的方法。
Jul, 2023
本研究基于强化学习,通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程,弥补探索广域领域中新奇性和涵盖性行为不足的问题,并在三种具有挑战性的环境中证明了目标导向的探索的有效性。
Feb, 2023
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
Nov, 2022
本研究提出了一种离线目标条件强化学习方法,其中包括了通过目标交换产生其他轨迹,以及一个名为确定性 Q - 优势策略梯度的算法,它能够降低噪声和推断误差,与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异,且在具有挑战性的手部操作任务中表现尤为出色。
Feb, 2023
本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。
Feb, 2018
本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。
Jul, 2020