Jun, 2024

BioMNER:用于生物医学方法实体识别的数据集

TL;DR本研究提出了一个新的生物医学方法实体识别数据集,利用自动化的生物医学方法实体识别和信息检索系统来辅助人工注释。此外,我们全面探索了一系列传统和现代的面向开放领域的命名实体识别方法,包括针对我们数据集进行定制的最新大规模语言模型(LLMs)的使用。我们的实证研究发现,令人惊讶的是,语言模型的大参数数量阻碍了与生物医学方法相关的实体提取模式的有效吸收。显著地,结合条件随机场(CRF),利用体积适中的 ALBERT 模型(仅 11MB),取得了最先进的性能(SOTA)。