BriefGPT.xyz
大模型
Ask
alpha
关键词
pre-training loss
搜索结果 - 4
从损失的角度理解语言模型的新能力
通过预训练损失来重新定义新能力,发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断,表现出较高的新能力。
PDF
3 months ago
大型语言模型学习数学推理的规模关系
探索大型语言模型中数学推理的挑战,研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响,发现预训练损失是模型性能的更好指标,应用不同数量的监督数据和拒绝抽样微调来改善模型性能,发现增加数据量与模型性能呈对数线性关系,增加更多
→
PDF
a year ago
梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者
使用线性自注意力的一层 Transformer 在合成的线性回归数据上进行预训练,表明通过最小化预训练损失可以实现最小二乘线性回归目标的梯度下降的单步操作。
PDF
a year ago
ACL
压缩 BERT:研究权重剪枝对迁移学习的影响
本文探讨使用权重剪枝压缩 BERT 模型对迁移学习的影响,研究结果发现,对于预训练模型进行低水平的剪枝不会对其迁移能力造成影响,而高水平的剪枝则会导致模型性能的下降。在指定任务中对 BERT 进行微调并不会对其剪枝产生帮助。因此,本文得出结
→
PDF
4 years ago
Prev
Next