Oct, 2020

MOCHA:用于训练和评估生成式阅读理解指标的数据集

TL;DR将阅读理解视为生成问题可提供更多的灵活性,但现有的生成度量依赖于词汇重叠,对于阅读理解的细微 nuance 不偏不倚。为解决这个问题,我们引入了 MOCHA 作为评估阅读理解模型度量的基准,并使用 LERC 作为训练模型来模仿人类判断分数。使用 MOCHA 数据集,LERC 的表现优于基准度量,并在最小配对的鲁棒性评估上达到了 80%的准确度,这个难题为开发准确且鲁棒的生成阅读理解度量提供了重要参考。