Jul, 2024

LLM电路分析在训练和尺度方面的始终如一性

TL;DR追踪了70百万到28亿参数规模的3000亿标记的解码器型大语言模型中模型机制的出现和演化,发现任务能力和支持它们的功能组件在规模不同的情况下一致地出现,并且虽然这些组件可能随时间由不同的注意力头实现,但其实施的总体算法保持不变。这些结果表明,在预训练结束后进行的对小型模型的线路分析仍然适用于额外的预训练和不同规模的模型。