关键词pre-training loss
搜索结果 - 4
  • 从损失的角度理解语言模型的新能力
    PDF3 months ago
  • 大型语言模型学习数学推理的规模关系
    PDFa year ago
  • 梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者
    PDFa year ago
  • ACL压缩 BERT:研究权重剪枝对迁移学习的影响
    PDF4 years ago
Prev
Next