Jul, 2024

上下文学习中的感应头作为模式匹配的基础机制

TL;DR大语言模型通过上下文学习展现了学习和执行复杂任务的卓越能力,本文研究在少样本学习和上下文学习环境中的归纳头的作用,并在抽象模式识别和自然语言处理任务上分析了两种最先进的模型,Llama-3-8B和InternLM2-20B。研究结果表明,即使对归纳头进行最小的抽取也会导致抽象模式识别任务中ICL性能下降约32%,使性能接近随机水平。对于自然语言处理任务,该抽取显著降低了模型利于示例学习的能力,使得少样本学习在上下文学习中的表现接近于零样本提示学习。我们还使用注意力削减方法来禁用特定的归纳模式,并提供了对归纳机制在上下文学习中所起作用的细粒度证据。