BriefGPT.xyz
Ask
alpha
关键词
component reweighting
搜索结果 - 1
当部分大于总和:个别 LLM 组件能超越完整模型
通过将大型语言模型的输出分解为注意力头和 MLP(组件)的个体贡献,本文研究了上下文学习(ICL)。通过观察好表现的组件(即使整体模型表现不佳,它们在分类任务上也表现良好)、表现较差的组件(比随机预测差得多)和标签偏倚组件(总是预测相同的标
→
PDF
18 days ago
Prev
Next