EMNLPOct, 2020

准确的任务形式化对于 Winograd 模式评估至关重要

TL;DR通过分析 Winograd Schema 挑战数据集的输入规范、损失函数、以及预训练模型参数的复用情况,本研究发现这些规范的改变是近期模型在该项挑战中精度飞跃的主要原因,而非模型推理能力的提升。此外,本研究还提出了多项技巧以缓解模型超参数的极端敏感性,并呼吁未来该领域的评测者们应该为评测任务制定更科学的评测规范,以减少规范决策对评测结果的影响。