基于 BERT 的关系抽取的鲁棒性和偏差分析

Sep, 2020

基于 BERT 的关系抽取的鲁棒性和偏差分析

On Robustness and Bias Analysis of BERT-based Relation Extraction

Luoqiu Li, Xiang Chen, Hongbin Ye, Zhen Bi, Shumin Deng...

TL;DR通过对 BERT 模型进行关系抽取分析，我们从不同角度研究了微调预训练模型的泛化能力，并探究了不同泛化技术之间的差异，发现 BERT 在随机化、对抗性测试、反事实测试和选择偏见等方面存在瓶颈。我们呈现的测试平台 DiagnoseRE 已在 https://github.com/zjunlp/DiagnoseRE 上开源。

Abstract

fine-tuning pre-trained models have achieved impressive performance on standard natural language processing benchmarks. However, the resultant model →

fine-tuning pre-trained models bert generalizability relation extraction

发现论文，激发创造

使用对比学习提高 BERT 模型在生物医学关系提取中的表现

本文探索使用对比学习方法提高 BERT 模型的文本表现力，并通过数据增强中的唯一对比预训练步骤来定制化关系提取任务集成语言学知识，研究外部知识库构建的大规模数据如何增强对比预训练的一般性，证明方法可以改进模型表示并实现最先进性能。

Apr, 2021

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

命名实体识别的严格研究：微调预训练模型可否引领应用？

本文研究在 fine-tuning 预训练模型的情况下，在命名实体识别任务中如何面对开放环境中可能面临的挑战，作者进行了随机测试和实证实验，结果表明，命名规则对于模型推广到未见过的提及至关重要，高覆盖率可能削弱模型的推广能力，而上下文模式则不需要使用大量数据来捕捉。

Apr, 2020

关于 BERT 微调的稳定性：误区、解释和强基准线

通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现，本文表明，Fine-tuning 不稳定是由于优化困难导致梯度消失，我们提出了一个简单但强大的基线方法，使 BERT-based 模型的 fine-tuning 显著更稳定。

Jun, 2020

基于 Transformer 的自然语言处理模型微调鲁棒性研究

本文对三种基于 Transformer 的预训练语言模型（BERT、GPT-2 和 T5）进行了鲁棒性测试，并比较了它们在多种输入扰动下的性能表现。同时，使用 CKA 和 STIR 两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中，GPT-2 表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性，但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于 Transformer 的模型的扰动特异性弱点提供了宝贵的见解。

May, 2023

重新审视少样本 BERT 微调

本文研究了 BERT 上下文表示的微调，重点关注少样本场景中常见的不稳定性，我们确定了引起这种不稳定性的几个因素，包括使用非标准优化方法、BERT 网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上，我们重新审视了最近提出的改善 BERT 少样本微调的方法，并重新评估了它们的有效性。通常情况下，我们观察到这些方法在我们修改后的过程中的影响显著降低。

Jun, 2020

相似性能下的 BERT 模型泛化能力差异大

本研究研究了同一神经网络架构在同一数据集上多次训练后是否在不同运行中进行相似的语言概括，通过在 Multi-genre 自然语言推理（MNLI）数据集上微调 100 个 BERT 实例并在评估自然语言推理中的句法概括的 HANS 数据集上对它们进行了评估，这类变异很可能是由于在局部极小值处的神经网络中出现的损失函数梯度等的不同选择而存在的，而减少变异可能需要具有更强归纳偏差的模型。

Nov, 2019

BERT 不是什么：从一套新的心理语言诊断中学到的教训，适用于语言模型

本文介绍了一种从人类语言实验中提取的一系列诊断方法，旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中，发现其可以区分涉及共享类别或角色逆转的好坏完成情况，但对具有挑战性的推理和基于角色的事件预测存在困难，并且特别是对否定性上下文影响的敏感性不足。

Jul, 2019

训练数据与转换器文本模型的对抗鲁棒性之间相关性的搜索的奇特案例

利用提取的 13 个不同特征来预测经过精细调整的模型的对抗鲁棒性，并证明训练数据与模型鲁棒性之间存在强相关性。

Feb, 2024

BERT 用于证据检索和主张验证

本研究针对 FEVER 事实抽取和验证挑战，探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法，并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明，我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率，并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。

Oct, 2019