Jun, 2024

自我对弈并结合执行反馈:提升大型语言模型的指令执行能力

TL;DR首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF,能够显著提高大型语言模型的指示遵循能力,有效应用于 SFT、Offline DPO 和 Online DPO 训练算法,可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。