Nov, 2024

更强的模型并不是更强的教学者:对指令调优的反思

TL;DR本研究针对指令调优领域的一个普遍假设进行探讨,即较大或更强的模型是较小模型的更强教学者。通过对多个模型和响应生成器的广泛实验,研究发现此假设并不成立,并提出了一种新颖的度量标准“兼容性调整奖励(CAR)”,能够更准确地评估响应生成器的效果,实验结果表明CAR优于几乎所有基线指标。