Jun, 2024

SCAR:大型语言模型的高效指令调整(Instruction-Tuning)通过风格一致性感知的响应排序

TL;DR通过维持人类专家的一致性响应风格和提高训练集中的数据质量,可以显著提高精调大型语言模型(LLMs)的性能,同时减少所需的训练样本数量。研究将响应风格分解为表达和组合风格,并发现在类似质量的训练数据中,具有更高风格一致性的数据可提高LLM的性能。基于这一观察,引入Style Consistency-Aware Response Ranking(SCAR),根据响应的风格一致性自动对训练集中的指令-响应对进行优先排序。通过选择最风格一致的示例,从完整数据集中的前25%到0.7%,精调的LLMs在编码和开放式问答基准测试中能够达到甚至超过整个数据集上训练的模型的性能。