ICLRApr, 2018

GLUE:自然语言理解的多任务基准测试和分析平台

TL;DR为了实现一种泛用的自然语言理解技术,我们引入了 GLUE 基准测试,它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。