Feb, 2024
谨慎使用手术刀:用 EMA 改进梯度手术
Careful with that Scalpel: Improving Gradient Surgery with an EMA
Yu-Guan Hsieh, James Thornton, Eugene Ndiaye, Michal Klein, Marco Cuturi...
TL;DR通过混合梯度,我们提出了一种名称为 Bloop 的方法,该方法用于解决深度学习估计管道中的双层优化问题,并可在自然语言处理和视觉实验中取得比其他梯度手术方法更好的性能。