Dec, 2023

拒绝的原因?将语言模型与判断对齐

TL;DR我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性,并提出了一种称为 Contrastive Unlikelihood Training (CUT) 的新框架,通过细致判定检测和修正来实现对不适当内容的改进,获得了优于基线模型的好成绩。同时,我们的分析表明判定相较于奖励在 LLM 对齐方面具有更大的潜力,值得进行进一步研究。