COLINGJun, 2018
自然语言推理的压力测试评估
Stress Test Evaluation for Natural Language Inference
Aakanksha Naik, Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, Graham Neubig
TL;DR本文提出了一个评估方法,即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力,评估了六种句子编码模型在这些测试中的表现,揭示了模型在面对复杂语言现象时的优势和劣势,为以后的研究方向提供了重要的指导意义。