The unstructured nature of clinical notes within electronic health records
often conceals vital patient-related information, making it challenging to
access or interpret. To uncover this hidden information, specialized Natural
Language Processing (NLP) models are required. However, training these models
necessitates large amounts of labeled data, a process t
在自然语言处理(NLP)领域,命名实体识别(NER)被认为是一项关键技术,广泛应用于各种应用。本研究引入了一种新颖的混合标注方法,将人力与大型语言模型(LLMs)的能力相结合,旨在提高 NER 模型的性能,并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析,该方法在受限预算条件下始终显示出比传统标注方法更优越的性能,揭示了利用 LLMs 提高数据集质量的潜力,引入了一种减轻类别不平衡问题的新技术,并证明了以经济方式实现高性能 NER 的可行性。