Jun, 2024
基于已记录的人类反馈的离线策略评估
Off-Policy Evaluation from Logged Human Feedback
Aniruddha Bhargava, Lalit Jain, Branislav Kveton, Ge Liu, Subhojyoti Mukherjee
TL;DR从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值,并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性,并进行了实证评估,证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。