Oct, 2023

高效大规模语言模型训练的记忆和通讯成本重新思考

TL;DR大尺寸建模训练,延迟均衡化,部分冗余优化器,分层重叠环,训练效率