Jan, 2023

论学习奖励函数的脆弱性

TL;DR本文研究了基于奖励学习的优化过程中,由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题,强调了需要在文献中加入更多的基于重新训练的评估方法。