Nov, 2018

常识推理任务的合理性研究:Winograd Schema Challenge 和 SWAG 的案例研究

TL;DR本研究论文研究现有的常识推理基准测试在实验设计方面存在的难题,提出了一种实验协议,分析了之前实验设计的威胁,以检验性能改进是否代表着通向通识系统的真正进展。