测试神经网络模型在自然语言推理基准数据集中的泛化能力

Oct, 2018

测试神经网络模型在自然语言推理基准数据集中的泛化能力

Neural Network Models for Natural Language Inference Fail to Capture the Semantics of Inference

Aarne Talman, Stergios Chatzikyriakidis

TL;DR研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化，即使假设相同或相似，基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外，使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。

Abstract

neural network models have been very successful for natural language inference, with the best models reaching 90% accuracy in some tasks. However, the success of these models turns out to be largely task specific