Mar, 2024

ProgGen: 使用自反大型语言模型逐步生成命名实体识别数据集

TL;DR该研究论文探讨了一种创新、成本效益的策略,利用具有适度命名实体识别能力的大型语言模型(LLMs)生成优质的命名实体识别数据集,通过引导 LLMs 自我反思特定领域生成与领域相关的属性,并围绕这些实体构建上下文数据,从而绕过 LLMs 在复杂结构上的挑战。实验证明,相对于传统的数据生成方法,该方法在通用领域和利基领域都取得了显著的性能提升,并具有更好的成本效益。