保持距离:通过自平衡的成形奖励解决稀疏奖励任务
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
本文提出了一种基于磁场的奖励制形式,结合了非线性和非各向同性分布,将传统奖励制应用于目标驱动的强化学习任务,得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数,并通过学习二次潜在函数以实现最优策略不变性。实验结果表明,相对于现有奖励制方法,该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。
Jul, 2023
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
本文提出一种形式化的目标探索目标,用于最大化状态覆盖,通过学习最大熵目标分布的 Skew-Fit 算法,与现有目标实现方法相结合,能够在开源的视觉目标达成任务中优于以前的方法,同时让真实世界中的机器人从像素开始、无需手动设计奖励函数,学会如何打开门。
Mar, 2019
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且所提出的使用注意力的方案具有可解释性。
Mar, 2022
本文介绍了一种无监督学习表示对象并执行物品交互任务的方法,它采用自主注意对象模型作为辅助任务,并在 AI2Thor 虚拟环境中进行测试。实验结果表明,该方法比其他辅助任务更快地学习成功率高。
Oct, 2020
本研究探索和对比了现有的强化学习方法,以避免仅提供稀少回报的环境的难度,并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案,提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。
Oct, 2019