May, 2024

为什么更大的语言模型在上下文中学习方式不同?

TL;DR大型语言模型(LLM)通过上下文学习(ICL)的关键能力成为 AI 的强大工具,本研究探讨了不同规模的模型在 ILC 行为上的不同性质,并在两个设定下分析了变压器的注意力机制与 ICL 的关系。