Oct, 2022
逆境创出新局:如何将错误反馈转化为准确标签
When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels
Weiyan Shi, Emily Dinan, Kurt Shuster, Jason Weston, Jing Xu
TL;DR本研究提出 Juicer 框架,利用二进制和自由形式的人类反馈,训练满意分类器和回复校正器,最终通过使用积极和消极反馈,通过训练改进了对话模型。