基于磁场的奖励设计器用于目标导向式强化学习

Jul, 2023

基于磁场的奖励设计器用于目标导向式强化学习

Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning

Hongyu Ding, Yuanze Tang, Qing Wu, Bo Wang, Chunlin Chen...

TL;DR本文提出了一种基于磁场的奖励制形式，结合了非线性和非各向同性分布，将传统奖励制应用于目标驱动的强化学习任务，得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数，并通过学习二次潜在函数以实现最优策略不变性。实验结果表明，相对于现有奖励制方法，该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。

Abstract

goal-conditioned reinforcement learning (RL) is an interesting extension of the traditional RL framework, where the dynamic environment and reward sparsity can cause conventional learning algorithms to fail. reward shap

goal-conditioned reinforcement learning reward shaping magnetic field-based reward shaping nonlinear distribution potential-based reward shaping

发现论文，激发创造

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

面向目标驱动任务的基于计划的放松奖励塑形

本文提出了一种解决状态空间高维时强化学习探索问题的 Final-Volume-Preserving Reward Shaping (FV-RS) 方法，相比于之前的 potential-based reward shaping 方法，FV-RS 放松了不断保持最优解保证，从而更适合于提高强化学习算法的样本效率，并在模拟机器人操作任务中实现了显著的改进

Jul, 2021

基于位势的奖励用于学习人形机械的运动能力评测

设计和调整奖励函数是发展有效强化学习（RL）流程的主要挑战之一。在这项研究中，我们使用潜在基础奖励塑造（PBRS）来加速学习收敛，在高维系统中，PBRS 对于收敛速度的提升有限，但是 PBRS 奖励项相对缩放更加稳健，更容易调整。

Jul, 2023

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

实时策略游戏中的奖励塑造以提高学习能力

我们研究了奖励塑型在实时策略的夺旗游戏中提高强化学习性能的效果，并证明适当设计的奖励塑型函数能显著提高玩家的性能和训练时间。

Nov, 2023

保持距离：通过自平衡的成形奖励解决稀疏奖励任务

该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法，使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务，同时不需要额外的奖励工程或领域专业知识。

Nov, 2019

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

元学习中的奖励塑形

本文提供了一种基于分布任务的 meta-learning 框架，自动学习新采样任务上的有效奖励塑形，从而解决了强化学习中信用分配的难题，并通过从 DQN 到 DDPG 的成功转移等各种设置，展示了探索 shaping 方法的有效性。

Jan, 2019

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与 MEDIC 框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024