BERT对事件事实性的判断不如医生的判断:在语用上失败了
我们提出了两个神经模型用于事件事实预测, 在FactBank、UW和MEANTIME三个事件事实数据集上相较于之前的模型都有明显的性能提升。我们还大幅扩展了通用分解语义数据集的It Happened部分,从而得到了目前最大的事件事实数据集,并在此扩展的数据集上报告了模型结果。
Apr, 2018
研究使用神经模型捕捉词汇句法推理的能力。我们以事件事实预测任务为案例研究对象,并建立一个各种句法上下文中所有英语嵌入子句动词的事实判断数据集。我们使用这个数据集来探究当前最先进的神经系统的行为,揭示了这些系统在事实预测方面会出现某些系统性错误。
Aug, 2018
本文介绍了一种从人类语言实验中提取的一系列诊断方法,旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中,发现其可以区分涉及共享类别或角色逆转的好坏完成情况,但对具有挑战性的推理和基于角色的事件预测存在困难,并且特别是对否定性上下文影响的敏感性不足。
Jul, 2019
使用维基百科词向量与BERT预训练模型相结合,构建了一种名为E-BERT的模型,可以更准确地处理自然语言中的实体,提高无监督问答、有监督关系分类和实体链接的效果。
Nov, 2019
本文在构建议程推理和预设的诊断数据集后,评估了在 MultiNLI 训练的 BERT、InferSent 和 BOW NLI 模型学习进行实用推理的能力。结果表明,尽管MultiNLI中的很少数的偶合类型表示,但BERT可以绘制实用偶合,而BOW和InferSent则表现出较弱的实用推理证据。
Apr, 2020
这篇文章探讨了BERT模型如何从它的参数化内存中获取关系知识,并使用知识库补全任务在BERT的每一层中进行了测试。作者发现,中间层对于BERT模型中的总知识量贡献了很大的部分,同时发现fine-tune时,与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。
Jun, 2021
本文调查了多语言语言模型(如mBERT和XLM-R)在一些语言下对事实知识预测的一致性,并发现尽管在英语下,这些模型的一致性与其单语言模型相似,但在其他45种语言下,这些模型的一致性程度却较低。
Mar, 2022
本研究考察了在自然语言中可以用BERT模型来训练端到端地解决逻辑推理问题吗?通过监察矛盾的现象,研究发现BERT虽然能够在某些测试实例中达到近乎完美的准确率,但却不能在完全相同的问题空间中泛化到其它数据分布上。我们展示了这是因为BERT并没有学习正确的推理函数,而是学习了逻辑推理问题中固有的统计特征。此研究结果自然推广到其他神经模型,并揭示了学习推理与学习利用统计特征在NLP基准测试中高绩效之间的根本差异。
May, 2022
本文通过比较以a/an,the和零三种形式设置的冠词预测任务中Bert模型和人类的表现,发现Bert模型对于检测零冠词的性能远远优于人类,并且在高一致性的情况下更容易与注释者达成一致,这表明BERT不是在记忆冠词使用情况,而是捕捉到了类似于人类的感性认知水平的高度概括性冠词使用规律。
Jun, 2022
探索事实性与自然语言推理之间的关系,并引入 FactRel 注释方案来模拟事实性推理,分析表明,事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系,这表明事实关系更适合分析媒体话语;在新数据集上进行了对比分类模型的实验,并发现在某些情况下,基于注释数据集使用 GPT-4 生成合成数据可以提高性能,而使用 GPT-4 进行少样本学习的结果与在标注数据集上训练的中型语言模型(DeBERTa)相当强大,这些结果表明此任务在世界知识和高级推理能力上的基本依赖关系。
Jun, 2024