基于 Transformer 深度学习架构的上下文化药物信息提取
本研究构建并评估了 GatorTron,一个基于临床语言的自然语言处理大型模型,训练数据包含 90 多亿个单词,其中包括 82 多亿个去识别化的临床文本。该模型在临床概念提取、医学关系提取、语义文本相似度、自然语言推断和医学问答等 5 个临床自然语言处理任务上都表现出众,并在可伸缩性方面得到了优化。
Feb, 2022
本文介绍了一种从临床笔记的自由文本中自动提取药物变化信息的方法,并用 Contextual Medication Event Dataset (CMED) 数据集识别药物提及。并提出了三种基于 BERT 的高性能系统来解决注释的药物变化特性。研究表明,所提出的系统可以提高药物变化分类性能。
Aug, 2022
探索了 MedTem 项目中利用深度学习和大型语言模型(LLM)进行医疗信息从 EMR 中提取和分类的效果,并对不同字嵌入技术进行了研究。在医疗实体识别任务中,CNN-BiLSTM 模型优于 BiLSTM-CRF 模型,分别达到了 75.67,77.83 和 78.17 的 Macro Average 精确度,召回率和 F1 分数。BERT-CNN 模型在 i2b2-2012 挑战的时间关系提取测试集上表现也较好,分别达到了 64.48,67.17 和 65.03 的 Macro Average P/R/F1 分数。
Oct, 2023
本研究旨在探讨利用预训练的大型语言模型 (ChatGPT) 进行数据增强来识别电子病历中的关键因素,结果表明基于 ChatGPT 的数据增强对药物识别和药物事件分类任务的性能提高有益。
Jun, 2023
本文介绍如何使用基于 BERT 的语言模型来检测药物处方信息中的异常情况,通过数据集中的真实医疗数据,训练模型以学习文本依赖模式,并基于上下文信息预测药物处方的错误输出,实验结果表明模型的准确率可达 96.63%。
Jan, 2022
本文使用 2770 亿行混合临床和英文文本的 GPT-3 架构,开发了一种名为 GatorTronGPT 的临床生成 LLM,以提高医学研究的生物医学自然语言处理。通过使用 GatorTronGPT 训练的合成自然语言处理模型的生成文本,性能优于使用现实临床文本训练的模型。在医生的图灵测试中,医生不能区分 GatorTronGPT 所生成的文本和人类所生成的文本。该研究为 LLMs 在医学研究和医疗保健中的机遇和挑战提供了深入的见解。
May, 2023
应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数,并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法,该方法也可以应用于其他医学文本。
Apr, 2024
本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法,该方法通过自然语言处理技术和网络注释工具的组合应用,优化了使用少量训练数据训练的定制命名实体识别模型的性能,并展示了该技术与现有方法相比的优势。研究结果表明,在仅使用 50% 的训练数据的情况下,我们的方法训练的模型的 F1 得分可达到 0.734,而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。
Oct, 2019
本文提出了一种基于提示的机器阅读理解(MRC)架构,能够解决临床概念抽取和关系抽取问题,在跨机构应用中表现良好,并使用转换器模型对其进行探索。在 2018 年国家 NLP 临床挑战和 2022 年 NLP 临床挑战的基准数据集上,该方法均取得了优秀的性能,并适用于处理嵌套 / 重叠概念和跨机构应用。
Mar, 2023
通过提供标签(例如药物词汇表和属性),我们介绍了一种新的任务特定模型体系结构 Label-To-Text-Transformer(LT3),专门用于生成基于提供的标签的合成医疗指令。我们通过与最先进的预训练语言模型(PLM)T5 进行对比,评估了 LT3 的性能,并分析了生成文本的质量和多样性。我们使用生成的合成数据对 SpacyNER 模型进行了训练,用于在 n2c2-2018 数据集上进行命名实体识别(NER)任务。实验结果表明,使用合成数据训练的模型在药物、频率、途径、强度和形式的标签识别上可以达到 96-98%的 F1 分数。
Oct, 2023