AAAIDec, 2021

影响函数的扩张

TL;DR本论文提出基于 Arnoldi 迭代方法的反 Hessian 矩阵计算,实现了首个能够扩展到拥有几亿参数的 Transformer 模型的成功影响函数实现,适用于图像分类和序列 - 序列任务。