Mar, 2024

利用 LLM 增加 NER 数据集:走向自动化和精确注释

TL;DR在自然语言处理(NLP)领域,命名实体识别(NER)被认为是一项关键技术,广泛应用于各种应用。本研究引入了一种新颖的混合标注方法,将人力与大型语言模型(LLMs)的能力相结合,旨在提高 NER 模型的性能,并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析,该方法在受限预算条件下始终显示出比传统标注方法更优越的性能,揭示了利用 LLMs 提高数据集质量的潜力,引入了一种减轻类别不平衡问题的新技术,并证明了以经济方式实现高性能 NER 的可行性。