Jun, 2024

自我演进的策略优化微调

TL;DR本研究在大型语言模型(LLMs)对齐方面引入自我演进微调(SEFT),旨在消除对注释样本的需求,同时保持 SFT 的稳定性和效率。通过 SEFT,模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性,并对其相对于现有对齐技术的优势进行了全面分析。