Nov, 2022
GLUE-X: 从越界泛化角度评估自然语言理解模型
GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective
Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang...
TL;DR本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试,该基准用于评估自然语言处理模型中的 OOD 鲁棒性,在 13 个公开可用的 OOD 测试数据集上验收模型,发现模型在 OOD 任务上的性能明显下降,对提高模型鲁棒性提供了一些见解和改进方案。