Mar, 2024

监督微调作为逆强化学习

TL;DR我们通过建立一个顺序决策框架,利用示范数据集来对齐大型语言模型(LLMs),并介绍了各种减小 LLM 对齐任务中差异的方法,分析了这些方法的覆盖率和寻求主模式的行为,以及传统监督微调方法的优势和劣势。