EMNLPOct, 2023

大型语言模型中主观人类偏好和价值的反馈学习的过去、现状和更好未来

TL;DR人类反馈在大型语言模型中被广泛应用,本研究回顾了现有的人类反馈学习方法,并提出了未解决的五个概念和实践上的挑战。