May, 2024

开放环境中的持续演化奖励

TL;DR在复杂的现实环境中,准确识别驱动实体行为的奖励是困难的,特别在环境改变时,由于目标和相关行为在内生地出现并动态更新。本文通过学习和期望的方式考察了一种用于动态更新奖励的候选算法 RULE。通过在简化的生态系统模拟实验中测试,该方法成功模拟了实体的行为调整,包括放弃最初有奖励但最终有害的行为、增强有益的行为,以及对环境中新物品的恰当反应。这些调整是通过持续学习中实体自身奖励函数的内生修改而发生的,无需外部干预。