EMNLPMar, 2022

BERT 基准评估指标的可重复性问题

TL;DR研究探讨最近四种基于 BERT 的方法是否具有可重复性,发现研究结果通常由于未进行文档化的预处理、缺失代码、报告基准度量产生更弱的结果等原因而失败,一个问题源于将分数与错误的 csv 文件列相关联而使得分数高 5 点。同时,该研究还证明了预处理方法对 BMP 预测影响巨大,而该影响可能比聚合机制还要大。