BriefGPT.xyz
大模型
Ask
alpha
关键词
scaling experiments
搜索结果 - 3
超越固定训练持续时间的尺度定律和计算优化训练
通过研究模型的规模和训练行为,本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法,并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能,从而减少计算和 GPU 时间,实现规模实验的效率提升。
PDF
a month ago
ECCV
使用预训练模型的互信息正则化实现领域泛化
使用 mutual information regularization 和 oracle 模型,通过一个预训练模型推导了一个可行的变分下界,证明在缩放实验中,预训练模型的规模越大,MIRO 的性能改善越好。
PDF
2 years ago
基于三个案例研究的 Spark 和 C+MPI 在规模化矩阵分解上的科学数据分析比较
探讨在 HPC 平台上使用 Apache Spark 进行线性代数与传统的 C 和 MPI 实现之间的权衡。我们考察了三种常用的矩阵分解方法:NMF、PCA 和 CX,并将它们应用于 TB 级的问题,包括粒子物理学、气候模拟和生物成像。我们
→
PDF
8 years ago
Prev
Next