电子病历上乳腺癌表型 NLP 算法跨院评估

Mar, 2023

电子病历上乳腺癌表型 NLP 算法跨院评估

A Cross-institutional Evaluation on Breast Cancer Phenotyping NLP Algorithms on Electronic Health Records

Sicheng Zhou, Nan Wang, Liwei Wang, Ju Sun, Anne Blaes...

TL;DR本研究通过乳腺癌表型提取任务，评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明，CancerBERT 模型具有最佳的学习能力和普适性，并且模型的普适性与样本之间的相似度有关。

Abstract

Objective: The generalizability of clinical large language models is usually ignored during the model development process. This study evaluated the generalizability of BERT-based →

clinical nlp models generalizability cancerbert breast cancer phenotype extraction entity coverage

发现论文，激发创造

面向临床自然语言处理的轻量级 Transformer

通过知识蒸馏和不断学习等技术，本研究着眼于发展处理临床文本的高效轻量级语言模型，与生物医学文本数据训练的大型模型相比，这些模型效果相当甚至更好，并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。

Feb, 2023

利用大型语言模型增强临床笔记中的表型识别：PhenoBCBERT 和 PhenoGPT

通过基于 Transformer 结构的大型语言模型（LLMs），我们可以自动检测临床表型术语，包括未记录在 HPO 中的术语。在本研究中，我们开发了两种模型：PhenoBCBERT，一种基于 BERT 的模型，利用 Bio+Clinical BERT 作为其预训练模型，和 PhenoGPT，一种基于 GPT 的模型，可以从各种 GPT 模型（包括开源版本和专有版本）初始化。我们发现我们的方法可以提取更多的表型概念，包括 HPO 未描述的新概念。我们还对生物医学文献进行了案例研究，说明如何识别和提取新的表型信息。我们在多个方面比较了基于 BERT 和基于 GPT 的模型进行表型标记，包括模型架构、内存使用、速度、准确性和隐私保护。此外，我们还讨论了将否定步骤和 HPO 规范化层添加到 Transformer 模型中，以改进 HPO 术语标记。总之，PhenoBCBERT 和 PhenoGPT 可以实现从临床记录和生物医学文献中自动发现表型术语，从而促进自动的下游任务，以获得关于人类疾病的新的生物学见解。

Aug, 2023

从大规模临床记录中开发出通用的临床语言推断模型

本文通过使用领域专有词汇和大规模临床训练语料库，使用双向编码器解码器（BERT）模型对医疗语言推理任务进行分析和评估，与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比，我们的模型表现相同，并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型，但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。

Oct, 2022

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于 BERT 模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

探索癌症临床试验资格分类器在不同疾病间的泛化能力

本研究旨在评估自然语言处理对临床试验中资格分类的通用性，结果表明在广泛的临床试验中，模型在处理非癌症试验方面表现出色，但对癌症试验中特定资格的处理相对较难，研究还尝试了少样本学习，证明了少量疾病特异性示例可以部分弥补性能差距，此外，研究提供了一个经过注释的资格陈述数据集，以促进临床试验分类的跨疾病通用性的发展。

Mar, 2024

对于患者表型，规则模型和深度学习模型的比较

本文研究了深度学习技术在自然语言处理中是否可以有效用于患者表型特征提取和预测，并与传统 NLP 方法进行比较。结果表明，卷积神经网络是一种性能优良且易解释的深度学习方法，可以有效提高患者表型预测的性能，降低注释复杂度，并自动学习与每个患者表型相关的短语。

Mar, 2017

公开可用的临床 BERT 嵌入

本文探讨了基于词汇的上下文嵌入模型在临床领域的应用，发现相对于通用语料库，专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。

Apr, 2019

PathologyBERT -- 面向病理领域的预训练与新 Transformer 语言模型比较研究

介绍了 PathologyBERT - 一个采用 347,173 个组织病理学报告进行预训练的蒙面语言模型，以支持病理学领域的文本挖掘，并与其他模型进行了性能比较，以提高肿瘤识别和自然语言理解等方面的性能。

May, 2022

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

医疗领域大型语言模型的分析：以 BioBERT 为案例研究

本研究全面调查了大型语言模型（尤其是 BioBERT）在医疗保健领域的应用。它从彻底检查先前的自然语言处理（NLP）方法在医疗保健领域的应用开始，揭示了这些方法面临的限制和挑战。随后，研究探索了将 BioBERT 应用于医疗保健应用的路径，突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法，用于微调 BioBERT 以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据，对诸如识别医疗实体和对其进行分类等任务进行数据注释，以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外，本研究还涵盖了与模型评估相关的方面，重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术，并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑，特别是患者隐私和数据安全。它强调了将 BioBERT 纳入医疗保健环境的好处，包括增强临床决策支持和更高效的信息检索。然而，它也承认了此集成的障碍和复杂性，包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。

Oct, 2023