Oct, 2023

关于增强学习中客观规范形式表达能力的研究

TL;DR通过广泛比较17种强化学习目标规范形式的表达能力,我们发现不同形式主义存在多种限制,并未找到一种同时具有主导性表达能力和当前技术下优化简便性的形式主义。这些发现对策略优化和奖励学习有重要影响,并强调了未来研究在奖励学习方法中适应多种形式主义的需求,因为许多现有奖励学习方法隐含地假设所需目标可以用马尔可夫奖励来表达。我们的工作有助于更全面地了解不同强化学习目标规范形式的成本和收益。