Jan, 2024

面向使用人类反馈进行离线策略排序的强化学习

TL;DR本文提出了一种新的离线值排名 (VR) 算法,可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量,以提高样本效率。理论和实证研究表明,EM 过程指导了学习策略,从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。