Feb, 2024
踩脚自校准:通过自启动扩展LLM的尺度自对准
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping
TL;DR自校准是降低人工标注成本并确保模型能力的有效方法。本文探讨了多次引导自校准对大型语言模型的影响,发现多次引导自校准明显优于单轮引导,通过在上下文学习中保证数据多样性。基于这些发现,提出了 Step-On-Feet Tuning(SOFT)用于提升零次或一次试验效果。SOFT+进一步提升了自校准的性能,实验证明了多任务分类和生成任务上SOFT(SOFT+)的效率,突显了多次引导自校准在不断增强模型对齐性能方面的潜力。