基于 StackOverflow 的小样本命名实体识别

Apr, 2024

基于 StackOverflow 的小样本命名实体识别

Few-shot Name Entity Recognition on StackOverflow

Xinwei Chen, Kun Li, Tianyou Song, Jiangjian Guo

TL;DR提出了 RoBERTa+MAML 方法，用于解决 StackOverflow 上的注释挑战，通过元学习来进行少样本命名实体识别，并在 StackOverflow 命名实体语料库上取得了 5% 的 F1 分数改进。通过增强领域特定短语处理来进一步提高结果。

Abstract

stackoverflow, with its vast question repository and limited labeled examples, raise an annotation challenge for us. We address this gap by proposing RoBERTa+MAML, a →

stackoverflow annotation challenge roberta+maml few-shot named entity recognition meta-learning

发现论文，激发创造

拆分元学习用于少样本命名实体识别

本文介绍了一种分解元学习方法，通过元学习逐步解决了少样本命名实体识别中的少样本跨度检测和少样本实体类型划分问题，并在各种基准测试中证明了该方法优于以往方法的卓越性能。

Apr, 2022

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

基于示例的命名实体识别

我们提出了一种新的名词实体识别方法，称为基于示例的实体识别，在缺乏数据的情况下通过受到问答启发，使用少量支持示例来识别新领域中的实体范围，与当前最先进的方法相比，该方法表现出更好的性能，特别是在使用少量支持示例时。

Aug, 2020

在 StackOverflow 中进行代码和命名实体识别

本文介绍了一个计算机编程领域的新命名实体识别（NER）语料库，包括 15,372 个句子和 20 种细粒度实体类型。我们使用基于 BERToverflow 的训练数据对 BERT 模型进行了改进，并提出了 SoftNER 模型，通过上下文无关代码标记分类器和语料库级特征，可在 StackOverflow 数据集上实现代码和命名实体识别。

May, 2020

医疗文本中的少样本命名实体识别

本研究在仅有 10 个注释示例的情况下，通过使用预训练权重、超参数调整、预处理数据、自定义词嵌入和优化词外词汇等 5 个因素改善了命名实体识别任务，并将其 F1 得分从 69.3% 提高到 78.87%。

Nov, 2018

命名实体识别任务中的少样本分类

本论文研究使用（基于度量学习的）原型网络来进行少样本命名实体识别任务，其可以学习单词的中间表示并对其进行聚类来进行类别分类，通过将该技术与迁移学习结合使用，可以在只有很少的训练实例的情况下实现良好的分类器，进而实现零样本学习。

Dec, 2018

基于结构最近邻学习的简单有效少样本命名实体识别

论文提出了一个基于最近邻学习和结构化推理的简单的少样本命名实体识别系统，使用一个有监督的 NER 模型在源领域上进行训练，作为特征提取器，提出了一种捕获实体标签之间标签依赖性的廉价但有效的方法，并将结构化解码与最近邻学习相结合，达到了先进的表现。该方法使得 F1 分数相对于以前基于元学习的系统提高了 6％至 16％的绝对值。

Oct, 2020

应对 Few-shot 命名实体识别中的重复训练和样本依赖问题的研究

我们的研究提出了一个改进的少样本命名实体识别流程，利用预训练的跨领域跳板标识检测器和大规模语言模型，有效减少了基本特征的重复训练，同时消除了对少样本的依赖，通过广泛的实验表明，在各种数据集上，我们的模型在细粒度少样本命名实体识别方面胜过基线模型，包括 ChatGPT。

Jun, 2024

从语言描述中学习：基于分解框架的低样本命名实体识别

该研究提出了一个基于预训练语言模型的新型 NER 框架：SpanNER，在低资源环境下的 few-shot 学习、领域转移和 zero-shot 学习设置中，可以识别从未出现的实体类，通过实验可知其相比于最佳基准线平均能提高 10％，23％和 26％。

Sep, 2021

llmNER：利用大型语言模型的（零 | 少）样本命名实体识别

llmNER 是一个用于实现 LLMs 的零射击和少射击 NER 的 Python 库，通过提供易于使用的接口，llmNER 可以组合提示、查询模型，并解析 LLM 返回的完成结果。该库还通过提供简单的接口来测试多个变量，让用户可以高效地执行提示工程。我们在两个 NER 任务上验证了我们的软件，以展示该库的灵活性。llmNER 旨在推动上下文学习研究的界限，消除提示和解析步骤的障碍。

Jun, 2024