May, 2024

通过人类反馈进行提示优化

TL;DR研究了使用用户偏好反馈的黑盒大语言模型优化问题,提出了自动化的 APOHF 算法,应用于多个任务,证明其可以高效地找到好的提示。