Apr, 2024

辅助任务需求掩盖了较小语言模型的能力

TL;DR发展心理学家们就认知能力(如语言理解或心灵理论)何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型(LM)的能力时也会遇到类似问题:对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里,我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中,存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明,LM 性能不应被解释为智能(或缺乏智能)的直接指示,而应看作是通过研究者设计选择镜头下看到的能力的反映。