Oct, 2023

人类反馈的非策略评估

TL;DR解决基于人类反馈信号的离线评估问题,引入了一种新的离线评估框架 ——OPEHF,通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法,从而明显提高了对人类反馈信号的准确估计性能。