Aug, 2023

优化基于 Transformer 的机器翻译模型,以便在单个 GPU 训练中达到最佳性能:超参数淘汰研究

TL;DR通过对超参数的删减实验,发现模型参数不一定越多越有效,进而揭示了通过精确调整超参数在单个 GPU 上训练复杂模型的关键技巧,从而为机器翻译的可用性和经济性提供了重要见解。