Feb, 2024

选择性反思调整:针对 LLM 指导调整的学生选取数据循环

TL;DR选择性反射微调是一种新型范式,通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力,自动优化现有的指示微调数据,从而生成高质量且与学生模型兼容的指示 - 回答对,提升巨型语言模型微调和自我改进的效率,实现卓越性能的巨型语言模型。