BriefGPT.xyz
Ask
alpha
关键词
language prediction
搜索结果 - 2
协调 Kaplan 和 Chinchilla 比例定律
该研究重点研究了 transformers 在语言预测任务中的缩放行为,探讨了参数设置和计算预算对模型性能的影响,并解释了 Kaplan 等人估计过高的原因。
PDF
24 days ago
大型语言模型的时间箭头
我们通过时间方向性的角度研究自回归大规模语言模型的概率建模,经验性发现这类模型在自然语言建模方面存在时间上的非对称性:在预测下一个标记和预测上一个标记时的平均对数困惑度存在差异。这种差异在多个模式(语言、模型大小、训练时间等)上既微妙又非常
→
PDF
5 months ago
Prev
Next