ICLRMay, 2022

线性连通性揭示泛化策略

TL;DR使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象,发现了线性路径上增加的损失不断增加的现象,并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。