Jun, 2024

基于已记录的人类反馈的离线策略评估

TL;DR从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值,并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性,并进行了实证评估,证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。