May, 2022

ER-Test: 评估语言模型解释规范化方法

TL;DR该研究引入了ER-Test框架,该框架可衡量ER模型在未知数据集测试、对比集测试和功能测试下的泛化性能。通过该框架,研究者发现ER设计方案对同一任务的不同数据集具有不同的OOD泛化表现,ER虽然对ID性能影响小,但可对OOD性能产生巨大的提升。研究者还发现,即使有限的理性监督也可以提高ER性能的OOD表现。