Apr, 2018
训练数据中的隐藏偏差对文本蕴涵识别性能的影响
Performance Impact Caused by Hidden Bias of Training Data for Recognizing Textual Entailment
Masatoshi Tsuchiya
TL;DR本文提出了一种新的方法来研究用于识别文本蕴含任务的大型语料库的质量,通过基于统计假设检验的方法,测试了斯坦福自然语言推理(SNLI)语料库的可预测性,结果表明该库存在隐藏的偏差,并呈现了此偏差对于 RTE 的 NN 模型性能的影响。