基于 BERT 的关系抽取的鲁棒性和偏差分析
本文探索使用对比学习方法提高 BERT 模型的文本表现力,并通过数据增强中的唯一对比预训练步骤来定制化关系提取任务集成语言学知识,研究外部知识库构建的大规模数据如何增强对比预训练的一般性,证明方法可以改进模型表示并实现最先进性能。
Apr, 2021
本文主要研究了最新的自然语言处理技术中,神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现,预训练的语言模型对发现未曾见过的命名实体表现良好,但对于未曾见过的关系则有待加强,因此模型的理解能力仍存在提升空间。
Jun, 2022
本文研究在 fine-tuning 预训练模型的情况下,在命名实体识别任务中如何面对开放环境中可能面临的挑战,作者进行了随机测试和实证实验,结果表明,命名规则对于模型推广到未见过的提及至关重要,高覆盖率可能削弱模型的推广能力,而上下文模式则不需要使用大量数据来捕捉。
Apr, 2020
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。
Jun, 2020
本文对三种基于 Transformer 的预训练语言模型(BERT、GPT-2 和 T5)进行了鲁棒性测试,并比较了它们在多种输入扰动下的性能表现。同时,使用 CKA 和 STIR 两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中,GPT-2 表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性,但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于 Transformer 的模型的扰动特异性弱点提供了宝贵的见解。
May, 2023
本文研究了 BERT 上下文表示的微调,重点关注少样本场景中常见的不稳定性,我们确定了引起这种不稳定性的几个因素,包括使用非标准优化方法、BERT 网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上,我们重新审视了最近提出的改善 BERT 少样本微调的方法,并重新评估了它们的有效性。通常情况下,我们观察到这些方法在我们修改后的过程中的影响显著降低。
Jun, 2020
本研究研究了同一神经网络架构在同一数据集上多次训练后是否在不同运行中进行相似的语言概括,通过在 Multi-genre 自然语言推理(MNLI)数据集上微调 100 个 BERT 实例并在评估自然语言推理中的句法概括的 HANS 数据集上对它们进行了评估,这类变异很可能是由于在局部极小值处的神经网络中出现的损失函数梯度等的不同选择而存在的,而减少变异可能需要具有更强归纳偏差的模型。
Nov, 2019
本文介绍了一种从人类语言实验中提取的一系列诊断方法,旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中,发现其可以区分涉及共享类别或角色逆转的好坏完成情况,但对具有挑战性的推理和基于角色的事件预测存在困难,并且特别是对否定性上下文影响的敏感性不足。
Jul, 2019
本研究针对 FEVER 事实抽取和验证挑战,探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法,并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明,我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率,并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。
Oct, 2019