Jun, 2024

迭代纳什策略优化:通过无悔学习使 LLMs 与一般偏好相一致

TL;DR本文以游戏理论的角度,探讨了一种基于人类偏好与强化学习的算法,通过采用无懊悔学习,自我对抗的方式逼近纳什平衡策略,从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更好的结果。