ICLROct, 2023

TRAM:连接信任区域和锐度感知最小化

TL;DR通过降低参数空间中损失曲面的曲率,锐度感知最小化(SAM)在域转换下实现了广泛的稳健性改进。本研究不关注参数,而是将表示的可转移性作为优化目标,在微调设置中进行跨域泛化的优化。我们考虑基于信任区域的微调方法,以鼓励保持可转移表示,并通过使用信任区域边界在两个优化表面上通知 SAM 风格的正则化方法来统一参数和表示空间平滑方法。我们提出了一种称为 Trust Region Aware Minimization(TRAM)的微调算法,该算法在不忘记预训练结构的情况下,优化平坦的最小值和平滑的信息表示。我们发现,TRAM 在跨领域语言建模和跨语言转移方面胜过锐度感知和基于信任区域的优化方法,在这些任务中,域转换的健壮性和表示的普适性对于成功至关重要。TRAM 为使用最少额外计算训练可推广模型确立了一个新的标准。