BriefGPT.xyz
Feb, 2024
突破极限:重塑强化学习中的奖励
To the Max: Reinventing Reward in Reinforcement Learning
HTML
PDF
Grigorii Veviurko, Wendelin Böhmer, Mathijs de Weerdt
TL;DR
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强化学习算法的优势。
Abstract
In
reinforcement learning
(RL), different rewards can define the same optimal policy but result in drastically different learning
performance
. For some, the agent gets stuck with a suboptimal behavior, and for ot
→