低资源命名实体识别的AUC最大化
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的NER模型,取得8种语言的实验结果,并在孟加拉语NER语料库中比现有最优算法提高5个百分点的F1分数。
Sep, 2019
通过对输出进行限制,可以训练出一个标注器,其与CRF相比可以实现两倍的交叉熵损失速度,差异在F1方面不具有统计学意义,从而有效消除了对CRF的需要。
Oct, 2020
该研究采用校准置信度估计的方式来研究深度学习在实际场景下的命名实体识别问题,提出了一种基于本地和全局独立性假设的置信得分估计策略,并结合CRF模型来隔离低置信度标签,同时提出了一种基于实体标签结构的置信度校准方法,最后将其集成到自我训练框架中进行性能提升,在四种语言和遥远标注场景下的实验证明了该方法的有效性。
Apr, 2021
本文介绍了一种基于大规模语言模型的命名实体识别预训练方法,通过构建大型高质量命名实体语料库,最终得到的NER-BERT模型在九个不同领域的低资源场景下明显优于其他模型。
Dec, 2021
本文介绍了一种新的基于$k$NN的实体标注框架,运用$k$ nearest neighbor方法来增强实体标签的分布,提高NER的few-shot学习能力和对long-tail cases的处理能力,并在多个数据集上验证和比较其性能,达到了比目前最好的结果更好的F1分数。
Mar, 2022
本文提出了一种新的名词实体识别(Named Entity Recognition,NER)的方法NRCES,通过使用sigmoid函数减轻噪声的负面影响并平衡模型的收敛速度和噪声容忍度,成功地解决了大规模无标注数据集的识别问题,并在合成和现实数据集上表现出了鲁棒性。
Aug, 2022
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪NER数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
提出了一个创新的方法,将多类问题作为一对多(OVA)学习问题来解决,引入了基于接收器操作特征曲线(AUC)下面积的损失函数,通过提出两种训练策略,改进了效率,从而在不同的命名实体识别(NER)设置中超过传统NER学习的性能。
Nov, 2023
该研究论文探讨了在遥感监督(DS-NER)框架下的命名实体识别(NER),其中主要挑战在于由于伪阳性、伪阴性和正类型错误等固有错误导致标签质量受损。我们批判性评估了当前DS-NER方法的效力,使用了一个名为QTL的真实基准数据集,揭示其性能常常达不到预期。为了解决标签噪声的普遍问题,我们引入了一种简单而有效的方法,基于课程的正负无标记学习(CuPUL),该方法在训练过程中通过从“简单”且更干净的样本开始,增强模型对噪声样本的鲁棒性。我们的实证结果突出了CuPUL减少噪声标签影响、超越现有方法的能力。
Feb, 2024