Dec, 2019

自适应方法对注意力模型有什么好处?

TL;DR本研究表明,一种重尾梯度噪声是 SGD 性能不佳的原因之一,而剪辑梯度可应用于 BERT 预训练和微调任务中,以提高性能。