Nov, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

TL;DR本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试,该基准用于评估自然语言处理模型中的 OOD 鲁棒性,在 13 个公开可用的 OOD 测试数据集上验收模型,发现模型在 OOD 任务上的性能明显下降,对提高模型鲁棒性提供了一些见解和改进方案。