COLINGJun, 2018

自然语言推理的压力测试评估

TL;DR本文提出了一个评估方法,即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力,评估了六种句子编码模型在这些测试中的表现,揭示了模型在面对复杂语言现象时的优势和劣势,为以后的研究方向提供了重要的指导意义。