Feb, 2024

突破极限:重塑强化学习中的奖励

TL;DR强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强化学习算法的优势。