突破极限：重塑强化学习中的奖励

Feb, 2024

突破极限：重塑强化学习中的奖励

To the Max: Reinventing Reward in Reinforcement Learning

Grigorii Veviurko, Wendelin Böhmer, Mathijs de Weerdt

TL;DR强化学习中，选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法，适用于确定性和随机环境，并将其与现有的强化学习算法相结合。在实验中，我们研究了该算法在两个目标达成环境中的性能，并证明了其相对于标准强化学习算法的优势。

Abstract

In reinforcement learning (RL), different rewards can define the same optimal policy but result in drastically different learning performance. For some, the agent gets stuck with a suboptimal behavior, and for ot