实时策略游戏中的奖励塑造以提高学习能力

Nov, 2023

实时策略游戏中的奖励塑造以提高学习能力

Reward Shaping for Improved Learning in Real-time Strategy Game Play

John Kliem, Prithviraj Dasgupta

TL;DR我们研究了奖励塑型在实时策略的夺旗游戏中提高强化学习性能的效果，并证明适当设计的奖励塑型函数能显著提高玩家的性能和训练时间。

Abstract

We investigate the effect of reward shaping in improving the performance of reinforcement learning in the context of the real-time strategy

reward shaping reinforcement learning real-time strategy capture-the-flag game player performance

发现论文，激发创造

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

奖励塑造对于更快乐的自主网络安全代理的研究

研究论文探讨了奖励信号对深度强化学习算法训练自主网络防御代理的影响，研究了奖励信号的特性，结合惩罚和正向外部奖励进行训练，并评估了内在好奇心作为内部正向奖励机制的效果以及其在高级网络监控任务中的优势。

Oct, 2023

元学习中的奖励塑形

本文提供了一种基于分布任务的 meta-learning 框架，自动学习新采样任务上的有效奖励塑形，从而解决了强化学习中信用分配的难题，并通过从 DQN 到 DDPG 的成功转移等各种设置，展示了探索 shaping 方法的有效性。

Jan, 2019

通过奖励塑造将上下文信息嵌入多智体学习中：以 Google 足球为例的案例研究

本研究旨在通过奖励塑形方法来解决多智能体环境下 MARL 算法以及稀疏奖励信号产生的挑战，在 Google Research Football 环境中实验结果表明，奖励塑形方法对于训练多智能体环境下的 RL 算法是有用的。

Mar, 2023

深度强化学习中的形状建议

本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法，分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出，使用 shaping advice 能够使规则更快地学习任务并获得更高的奖励。

Feb, 2022

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

基于磁场的奖励设计器用于目标导向式强化学习

本文提出了一种基于磁场的奖励制形式，结合了非线性和非各向同性分布，将传统奖励制应用于目标驱动的强化学习任务，得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数，并通过学习二次潜在函数以实现最优策略不变性。实验结果表明，相对于现有奖励制方法，该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。

Jul, 2023