Jul, 2024

在链中舞蹈:在语言模型中协调指令遵循与忠实性

TL;DR本研究解决了现代语言模型在遵循人类指令和保持忠实性之间的权衡问题。我们提出了一种新颖的方法——基于拒绝采样的持续自我指导微调(ReSet),其有效性显著超越传统的多任务学习方法,甚至在数据量较少的情况下仍然取得了更好的结果。研究结果有助于深入理解语言模型对齐训练中目标差异的问题。