指令调整将LLMs对齐到人脑

Dec, 2023

Instruction-tuning Aligns LLMs to the Human Brain

Khai Loong Aw, Syrielle Montariol, Badr AlKhamissi, Martin Schrimpf, Antoine Bosselut

TL;DR指导调优对大型语言模型（LLMs）进行调优的普遍方法，能够使其生成更接近自然语言查询的人类响应的输出，在许多情况下在各种测试中实现人类水平的性能。然而，指导调优是否真正使LLMs更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对LLM-human相似性的影响：(1)大脑对齐，即LLM内部表示与人类语言系统的神经活动相似度，(2)行为对齐，即LLM和人类在阅读任务上的行为相似度。我们评估了25个原始版本和经过指导调优的LLMs在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均6％，但对行为对齐没有类似效果。为了确定影响LLM-brain对齐的因素，我们计算了LLMs的大脑对齐与各种模型特性之间的相关性，如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是，我们发现大脑对齐和模型大小（r = 0.95）以及需要世界知识的任务的表现（r = 0.81）之间存在强正相关。我们的结果表明，指导调优LLMs可以改善世界知识表示和大脑对齐，这表明在LLMs中编码世界知识的机制也可以改善与人类大脑的表征对齐。

Abstract

instruction-tuning is a widely adopted method of finetuning that enables large language models (LLMs) to generate output that more closely resembles human responses to natural language queries, in many cases lead