BriefGPT.xyz
Ask
alpha
关键词
large-scale distributed training
搜索结果 - 1
MLPerf 训练突破:BERT 优化案例研究
提出了新的方法,包括负载均衡、通信成本隐藏、优化器重新评估,并结合超参数优化和更大的批次使用 ADAM 等技术,实现了最快的 MLPerf BERT 训练,比其他两个(一个)MLPerf v1.1(v2.0)提交的结果更快。
PDF
5 months ago
Prev
Next