Oct, 2018

测试神经网络模型在自然语言推理基准数据集中的泛化能力

TL;DR研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化,即使假设相同或相似,基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外,使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。