Dec, 2023

指令调整将LLMs对齐到人脑

TL;DR指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使LLMs更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对LLM-human相似性的影响:(1)大脑对齐,即LLM内部表示与人类语言系统的神经活动相似度,(2)行为对齐,即LLM和人类在阅读任务上的行为相似度。我们评估了25个原始版本和经过指导调优的LLMs在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均6%,但对行为对齐没有类似效果。为了确定影响LLM-brain对齐的因素,我们计算了LLMs的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优LLMs可以改善世界知识表示和大脑对齐,这表明在LLMs中编码世界知识的机制也可以改善与人类大脑的表征对齐。