Oct, 2023
反射调优:数据再利用提升 LLM 指令调优
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning
Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Heng Huang...
TL;DR通过反思调整指令的判断能力,本研究提出了一种名为 “reflection-tuning” 的新方法,利用 Oracle LLM 自省和提高数据中指令和回应的质量来优化大型语言模型(LLMs),在广泛使用的评估基准上的实验证明,我们用反思调整后的数据训练的 LLMs 在各种测评中表现优于使用现有数据集训练的模型。