Oct, 2022

逆境创出新局:如何将错误反馈转化为准确标签

TL;DR本研究提出 Juicer 框架,利用二进制和自由形式的人类反馈,训练满意分类器和回复校正器,最终通过使用积极和消极反馈,通过训练改进了对话模型。