Feb, 2024

MLPerf 训练突破:BERT 优化案例研究

TL;DR提出了新的方法,包括负载均衡、通信成本隐藏、优化器重新评估,并结合超参数优化和更大的批次使用 ADAM 等技术,实现了最快的 MLPerf BERT 训练,比其他两个(一个)MLPerf v1.1(v2.0)提交的结果更快。