保持距离：通过自平衡的成形奖励解决稀疏奖励任务

Nov, 2019

保持距离：通过自平衡的成形奖励解决稀疏奖励任务

Keeping Your Distance: Solving Sparse Reward Tasks Using Self-Balancing Shaped Rewards

Alexander Trott, Stephan Zheng, Caiming Xiong, Richard Socher

TL;DR该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法，使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务，同时不需要额外的奖励工程或领域专业知识。

Abstract

While using shaped rewards can be beneficial when solving sparse reward tasks, their successful application often requires careful engineering and is problem specific. For instance, in tasks where the agent must achieve some goal state, simple distance-to-goal →

reward shaping distance-to-goal exploration sparse rewards model-free

发现论文，激发创造

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

半监督和无监督技能探索的动态距离学习

本篇论文研究了如何通过自主互动学习动态距离，并使用它们来提供良好的奖励函数，以便无需人为设计奖励函数或目标示例，使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。

Jul, 2019

基于磁场的奖励设计器用于目标导向式强化学习

本文提出了一种基于磁场的奖励制形式，结合了非线性和非各向同性分布，将传统奖励制应用于目标驱动的强化学习任务，得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数，并通过学习二次潜在函数以实现最优策略不变性。实验结果表明，相对于现有奖励制方法，该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。

Jul, 2023

辅助奖励生成与过渡距离表示学习

通过度量状态之间的转换距离，我们提出了一种新颖的表示学习方法，用于自动生成辅助奖励，以促进增强学习的效率和收敛稳定性。

Feb, 2024

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

Skew-Fit: 状态覆盖式自监督强化学习

本文提出一种形式化的目标探索目标，用于最大化状态覆盖，通过学习最大熵目标分布的 Skew-Fit 算法，与现有目标实现方法相结合，能够在开源的视觉目标达成任务中优于以前的方法，同时让真实世界中的机器人从像素开始、无需手动设计奖励函数，学会如何打开门。

Mar, 2019

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

在第一人称模拟 3D 环境中，针对稀疏奖励对象交互任务的强化学习

本文介绍了一种无监督学习表示对象并执行物品交互任务的方法，它采用自主注意对象模型作为辅助任务，并在 AI2Thor 虚拟环境中进行测试。实验结果表明，该方法比其他辅助任务更快地学习成功率高。

Oct, 2020

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019