探究神经网络对自然语言论证的理解
本文描述了 BERT 在常识推理任务中的简单再现,展示了 BERT 生成的关注力可以被直接用于 Pronoun Disambiguation Problem 和 Winograd Schema Challenge 这些任务,提出的基于关注力的常识推理方法在各种数据集上表现出色,超过了之前报道的最先进水平。
May, 2019
该研究提出了一种基于编码器 - 解码器神经网络的论证生成模型,通过从维基百科检索外部证据来生成不同方面的论证,实验结果表明,我们的模型建立的论证比流行的序列生成模型更具有话题相关内容。
May, 2018
本研究探索了利用多语言 BERT 模型进行传输学习,以识别非英语语言中的论证挖掘任务。结果表明,机器翻译的质量对于论点立场和证据检测任务而言很好,但对于论证质量评估任务来说则不太适合。研究还展示了语言选择和它们之间的关系对结果模型的准确性产生了影响,并提供了一个多语言的人工数据集,以方便进行传输学习的效果评估。
Oct, 2020
使用注意力图探针框架,发现 BERT 模型对事件参数有良好的探测能力,并通过线性组合显著提高了某些角色的性能,尤其是在跨句子事件参数上表现更好。同时,通过提出的 NONCE 方法,可以验证单个最佳头部对词汇频率基础上的黄金参数和角色的关联是否具有鲁棒性。
Oct, 2020
本研究考察了在自然语言中可以用 BERT 模型来训练端到端地解决逻辑推理问题吗?通过监察矛盾的现象,研究发现 BERT 虽然能够在某些测试实例中达到近乎完美的准确率,但却不能在完全相同的问题空间中泛化到其它数据分布上。我们展示了这是因为 BERT 并没有学习正确的推理函数,而是学习了逻辑推理问题中固有的统计特征。此研究结果自然推广到其他神经模型,并揭示了学习推理与学习利用统计特征在 NLP 基准测试中高绩效之间的根本差异。
May, 2022
本研究针对 FEVER 事实抽取和验证挑战,探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法,并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明,我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率,并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。
Oct, 2019
本文提出了一个对抗性基准测试,旨在测试虚假新闻检测器推理现实世界事实的能力,使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上,结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。
Jan, 2022
本文研究了预训练语言模型在机器阅读理解任务中表现的问题,发现现有模型的性能存在统计偏差,提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。
May, 2021
本文对传统词嵌入模型与 BERT 模型在人权法庭裁决文本的法条分析任务中的表现进行了比较,实验证明领域特定的 BERT 模型有很大的潜力,而传统的词嵌入模型在与神经网络层结合后也能表现出很强的性能。
Feb, 2022