利用 LLM 增加 NER 数据集：走向自动化和精确注释

Mar, 2024

利用 LLM 增加 NER 数据集：走向自动化和精确注释

Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation

Yuji Naraki, Ryosuke Yamaki, Yoshikazu Ikeda, Takafumi Horie, Hiroki Naganuma

TL;DR在自然语言处理（NLP）领域，命名实体识别（NER）被认为是一项关键技术，广泛应用于各种应用。本研究引入了一种新颖的混合标注方法，将人力与大型语言模型（LLMs）的能力相结合，旨在提高 NER 模型的性能，并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析，该方法在受限预算条件下始终显示出比传统标注方法更优越的性能，揭示了利用 LLMs 提高数据集质量的潜力，引入了一种减轻类别不平衡问题的新技术，并证明了以经济方式实现高性能 NER 的可行性。

Abstract

In the field of natural language processing (NLP), named entity recognition (NER) is recognized as a critical technology, employed across a wide array of applications. Traditional methodologies for annotating dat

natural language processing named entity recognition annotation approach large language models class imbalance

发现论文，激发创造

NuNER：通过 LNN 标注数据进行实体识别编码器预训练

利用大型语言模型，本研究表明如何创建 NuNER，这是一种专注于命名实体识别（NER）任务的紧凑语言表示模型，可以进行低数据需求的微调，该模型在 few-shot 情景下胜过了类似大小的基础模型，并与更大的语言模型竞争。研究发现预训练数据集的大小和实体类型多样性是取得良好性能的关键。我们将 NuNER 视为最近由语言模型解锁的任务特定基础模型之一。

Feb, 2024

LLMs 加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

LTNER：基于上下文实体标记的大型语言模型命名实体识别

LLMs 在自然语言处理中的应用已成为近两年的热门趋势，然而，对于某些 NLP 任务，如 NER，在与监督学习方法相比较时，LLMs 的性能仍然不足以胜任。我们的研究开发了一种名为 LTNER 的 NER 处理框架，该框架融入了一种革命性的上下文化实体标记生成方法，通过利用成本效益高的 GPT-3.5 以及无需额外训练的上下文学习，显著提高了 LLMs 在处理 NER 任务时的准确性。在 CoNLL03 数据集上的 F1 得分从初始的 85.9% 增加到 91.9%，接近了监督微调的性能，这一结果增进了对 LLMs 潜力的深入认识。

Apr, 2024

利用大型语言模型进行零样本命名实体识别的自我提升

通过自我改进策略研究了零样本实体识别任务中大规模语言模型的应用，并提出了利用无标注语料库刺激模型自学能力的自我改进框架，通过全面实验分析发现，该自我改进框架能够进一步推动零样本实体识别任务的发展，并取得了显著的性能提升。

Nov, 2023

LinkNER: 使用不确定性将本地命名实体识别模型与大型语言模型连接

通过将小型微调模型与大型语言模型（LinkNER）结合、以及一种基于不确定性的链接策略（RDC），以提高 NER 任务性能并在鲁棒性测试中明显超过 SOTA 模型，我们量化分析了关键组件如不确定性估计方法、大型语言模型和上下文学习对各种 NER 任务的影响，提供了具体的与网络相关的建议。

Feb, 2024

通过 LLM 驱动的主动学习和人工标注来增强文本分类

该研究引入了一种新的方法，将人工标注和大语言模型（LLMs）与主动学习框架结合，以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明，在降低数据标注成本的同时，模型准确性得到了保持或提高。

Jun, 2024

LlamBERT: NLP 中的大规模低成本数据标注

LlamBERT 利用 Llama 2 和 GPT-4 等大型语言模型标记一小部分大型未标记数据库，通过结果对 BERT 和 RoBERTa 等 Transformer 编码器进行微调，以提高成本效益。

Mar, 2024

llmNER：利用大型语言模型的（零 | 少）样本命名实体识别

llmNER 是一个用于实现 LLMs 的零射击和少射击 NER 的 Python 库，通过提供易于使用的接口，llmNER 可以组合提示、查询模型，并解析 LLM 返回的完成结果。该库还通过提供简单的接口来测试多个变量，让用户可以高效地执行提示工程。我们在两个 NER 任务上验证了我们的软件，以展示该库的灵活性。llmNER 旨在推动上下文学习研究的界限，消除提示和解析步骤的障碍。

Jun, 2024

通过有效的注释和表示投影进行弱监督的跨语言命名实体识别

本文提出两种弱监督的跨语言实体标识方法，分别基于注释投影和词嵌入，无需使用目标语言的人工注释数据。同时，我们设计了两种协同解码方案，将两个基于投影的方法的输出相结合，评估表明这种组合性的方法优于其他三种弱监督方法。

Jul, 2017

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024