Oct, 2023

反射调优:数据再利用提升 LLM 指令调优

TL;DR通过反思调整指令的判断能力,本研究提出了一种名为 “reflection-tuning” 的新方法,利用 Oracle LLM 自省和提高数据中指令和回应的质量来优化大型语言模型(LLMs),在广泛使用的评估基准上的实验证明,我们用反思调整后的数据训练的 LLMs 在各种测评中表现优于使用现有数据集训练的模型。