BriefGPT.xyz
大模型
Ask
alpha
关键词
pre-training dynamics
搜索结果 - 2
探究上下文学习的预训练动态:任务识别与任务学习
利用预先训练的先验知识,通过任务识别和任务学习两种能力的竞争来促进上下文学习的出现,并提出了一种简单而有效的方法,在推理时间内更好地整合这两种能力。通过自适应集成学习,可以显著提高上下文学习的性能,使两个小模型的性能超过具有两倍参数的大模型
→
PDF
14 days ago
ACL
探索 LLM 训练中跨语言对齐的出现
多语言大型语言模型通过隐式对齐语言和神经元重叠达到零 - shot 跨语言转移性能,本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性,同时探测到预训练过程中隐式对齐和多语言能力的退化现象,为多语言预训练动态提供了新的
→
PDF
15 days ago
Prev
Next