H-COAL:用于生物医学命名实体识别的AI生成标签的人工校正
SwellShark 创造了一个用于建立生物医学命名实体识别系统的框架,该框架不需要手工标记数据,并将医学资源视为自动生成弱监督的函数原语。使用生成模型来统一和去噪弱监督,为训练高精度的命名实体识别(NER)标记器构建大规模的概率标签数据集。在三个医学命名实体识别任务中,SwellShark使用不需要手工标记的训练数据达到与最先进的有监督基准相竞争的分数。在使用患者医疗记录的药品名称提取任务中,一个领域专家使用 SwellShark 在 24 小时内仅 5.1% 左右的误差,就达到了利用 20 支团队在几周内完成的众包注释方法。
Apr, 2017
本文提出了一种弱监督数据增强方法,用于提高命名实体识别在具有挑战性的领域中的表现,结果表明该方法显著提高了NER性能,同时讨论了影响该方法有效性的因素。
Jun, 2019
本文介绍了一种名为 ConNER 的方法,通过提高修饰词(如形容词和介词)的标签依赖性来实现更高的标签一致性,从而改善生物医学实体的输出表示。该方法在四个流行的生物医学 NER 数据集上证明了其有效性,并在两个数据集上实现了 7.5-8.6% 的绝对改进。
Oct, 2022
本研究提出了一种使用外部标记资源来改善泛化能力的全新生物医学命名实体识别方案,基于深度学习的 AIONER 工具比多任务学习等现有方法更为有效、稳健,能够识别训练数据中未出现的实体类型,并具有大规模处理生物医学文本的优势。
Nov, 2022
通过向模型注入分类标签和词性信息,我们提出了一种简单的方法来改进生物医学命名实体识别(NER)。我们使用两种方法:第一种方法是先训练一个序列级分类器将句子分类为不同的类别,获取句子级别的标签(分类标签)。将这些标签注入NER模型,将分类标签转化为自然语言模板形式来改进分类器的准确性。第二种方法是同时学习分类标签和NER标签,并将词性标签注入模型以增加句法上下文,实验证明将分类标签信息与句法上下文相结合是非常有用的,并且优于基于BERT的基准模型。
Nov, 2023
使用大型语言模型(LLMs)结合人类专家的方法,快速生成医疗文本注释的地面真实标签,从而减少人工注释负担并保持高准确性,为医疗健康领域的定制自然语言处理(NLP)解决方案提供了潜力。
Dec, 2023
借助大语言模型,本文着眼于通过少量标注样本来显著提高模型准确性,从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec和亚马逊评论数据集上的基准测试,证明了即使只有少量标注样本,我们也能超过零样本大语言模型的准确性,提供更好的文本分类性能,而无需手动标记数百万行数据。
Jan, 2024
利用开源的大型语言模型LLaMA2作为骨干模型,并设计特定指令来区分不同类型的实体和数据集,通过将骨干模型理解指令与序列标注技术相结合,使用多个数据集来训练一个能够提取各种类型实体的模型VANER,集成外部实体知识库和使用指令调整,通过参数的小分区训练的VANER明显优于之前基于大型语言模型的模型,并且作为基于大型语言模型的模型,首次超过传统的BioNER系统大多数最先进的模型,实现了三个数据集中最高的F1分数。
Apr, 2024
通过利用通用领域的命名实体识别数据集进行迁移学习,本研究提出了一个简单而有效的方法GERBERA,用于训练预训练的生物医学语言模型,该模型能在少量生物医学资源的情况下,对多个生物医学数据集进行命名实体识别,其表现优于使用多个附加生物医学数据集训练的基准模型。
Jun, 2024
本研究解决了疾病实体识别和规范化中的少数概念训练样本不足的问题。通过微调LLaMa-2 13B聊天型大型语言模型生成包含规范化提及的合成语料库,研究表明这显著提高了疾病实体规范化的性能。特别是在三个不同的疾病语料库中,应用合成数据增强后,表现出明显的准确性提升,显示了该方法的潜在影响。
Oct, 2024