Jul, 2023

通过口头化调整进行命令跟踪评估

TL;DR我们提出了一种名为 verbalizer manipulation 的新型指令跟踪评估协议,该协议通过使用高度匹配到轻微匹配的语言转化器,结合任何分类基准来检查模型对先验知识的依赖程度以及其是否能准确遵循指令。我们对四个重要的模型系列进行了全面评估,使用了每个系列的十二组语言转化器,发现模型在不同系列和规模上的指令遵循能力在较不自然的语言转化器上有明显差异。即使是最强大的 GPT-4 模型在最具挑战性的语言转化器上也难以比随机猜测更好,强调了需要持续进步来改善其指令遵循能力。