DeviceBERT:应用目标注释和词汇丰富化的转移学习,在FDA召回摘要中识别医疗设备和组件术语
SwellShark 创造了一个用于建立生物医学命名实体识别系统的框架,该框架不需要手工标记数据,并将医学资源视为自动生成弱监督的函数原语。使用生成模型来统一和去噪弱监督,为训练高精度的命名实体识别(NER)标记器构建大规模的概率标签数据集。在三个医学命名实体识别任务中,SwellShark使用不需要手工标记的训练数据达到与最先进的有监督基准相竞争的分数。在使用患者医疗记录的药品名称提取任务中,一个领域专家使用 SwellShark 在 24 小时内仅 5.1% 左右的误差,就达到了利用 20 支团队在几周内完成的众包注释方法。
Apr, 2017
本文研究了从电子医疗记录中识别命名实体的问题, 提出了一种基于标签感知的双重迁移学习框架(La-DTL), 具有很强的跨科医疗命名实体识别的能力, 实验证明该方法相比于强基线模型的表现有明显的提高, 同时也展示了不局限于医学领域的命名实体识别应用前景。
Apr, 2018
通过对电子医疗记录的自动提取病人活动能力描述方法的分析和研究,我们发现领域适应的单词嵌入技术可用于病人活动能力的命名实体识别问题,并且在精确度和召回率方面均表现良好,但需要克服出现的巨大语言变异的挑战。
Jun, 2018
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型——生物医学ALBERT,并在8个不同的医学NER基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本文探讨了应用部分标注学习方法在缺失生物医学命名实体注释的场景中进行实体识别的有效性,并提出了一个新的 TS-PubMedBERT-Partial-CRF 模型来提高实体识别性能。实验结果表明,该模型在高缺失实体比例下的 F1-score 比使用全标注学习模型 PubMedBERT Tagger 高38%,同时其实体识别的召回率也达到了与全标注学习数据集上的上界相竞争的水平。
May, 2023
本研究全面调查了大型语言模型(尤其是BioBERT)在医疗保健领域的应用。它从彻底检查先前的自然语言处理(NLP)方法在医疗保健领域的应用开始,揭示了这些方法面临的限制和挑战。随后,研究探索了将BioBERT应用于医疗保健应用的路径,突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法,用于微调BioBERT以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据,对诸如识别医疗实体和对其进行分类等任务进行数据注释,以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外,本研究还涵盖了与模型评估相关的方面,重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术,并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑,特别是患者隐私和数据安全。它强调了将BioBERT纳入医疗保健环境的好处,包括增强临床决策支持和更高效的信息检索。然而,它也承认了此集成的障碍和复杂性,包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。
Oct, 2023
自动语音识别(ASR)技术是将口语转录为文本的基本技术,广泛应用于临床领域,包括简化医学转录和与电子健康记录(EHR)系统集成。然而,ASR-NLP领域仍存在挑战,尤其是当转录中含有噪音时,导致自然语言处理(NLP)模型的性能显著下降。本论文介绍了一个新颖的数据集,BioASR-NER,旨在填补生物医学领域ASR-NLP差距,重点提取不良药物反应和Brief Test of Adult Cognition by Telephone(BTACT)考试中实体的提及。我们的数据集提供了近2000个干净和有噪音的录音。针对噪音挑战,我们提出了一种使用GPT4的创新的文本清理方法,并研究了零样本和少样本方法。我们的研究进一步进行了错误分析,揭示了转录软件中的错误类型、GPT4的纠正和GPT4面临的挑战。本论文旨在促进对ASR-NLP差距的更好理解和潜在解决方案,最终支持改进的医疗文档化实践。
Mar, 2024
该研究探讨了大型语言模型在医学领域中的应用,通过策略性地选择和设计提示语,增强模型在命名实体识别任务中的性能,并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距,最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。
Apr, 2024
此研究利用基于大数据分析、机器学习和自然语言处理的工具,对医疗器械召回的发起方进行识别、评估和分析,提供一种高效且全面的方法来处理大规模和多样化的数据,并通过文本相似性和聚类算法来辅助从操作层面到战略层面的管理洞察和风险识别和评估。
Jun, 2024
本研究提出了一个新的生物医学方法实体识别数据集,利用自动化的生物医学方法实体识别和信息检索系统来辅助人工注释。此外,我们全面探索了一系列传统和现代的面向开放领域的命名实体识别方法,包括针对我们数据集进行定制的最新大规模语言模型(LLMs)的使用。我们的实证研究发现,令人惊讶的是,语言模型的大参数数量阻碍了与生物医学方法相关的实体提取模式的有效吸收。显著地,结合条件随机场(CRF),利用体积适中的ALBERT模型(仅11MB),取得了最先进的性能(SOTA)。
Jun, 2024