Jun, 2024

优化学习奖励函数的危险性:低训练误差并不能保证低后悔

TL;DR通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。