Mar, 2024

强化学习中奖励展望的价值

TL;DR通过竞争分析的视角,我们量化分析了先见之明的未来回报信息的价值,并且得出了标准RL代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布,并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是,所得比率与离线RL和无回报探索中的已知数量相关。我们还提供了给定最坏动态情况下的比率的严格界限。我们的结果涵盖了在行动之前观察即时回报到在交互开始之前观察所有回报之间的所有情况。