Feb, 2024

谨慎使用手术刀:用 EMA 改进梯度手术

TL;DR通过混合梯度,我们提出了一种名称为 Bloop 的方法,该方法用于解决深度学习估计管道中的双层优化问题,并可在自然语言处理和视觉实验中取得比其他梯度手术方法更好的性能。