利用基础模型进行临床文本分析
该研究构建了一个临床文本挖掘系统,利用命名实体识别和深度学习模型优化了现有技术,能够从 COVID-19 研究数据集中提取潜在趋势和洞见,支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。
Dec, 2020
通过知识蒸馏和不断学习等技术,本研究着眼于发展处理临床文本的高效轻量级语言模型,与生物医学文本数据训练的大型模型相比,这些模型效果相当甚至更好,并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。
Feb, 2023
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本书提供了基础模型的研究和应用的综述,介绍了预训练语言模型 BERT、GPT 和序列到序列变换,并讨论了改进这些模型的不同方法,以及 20 个应用领域中表现最佳的模型。
Feb, 2023
该研究回顾了现代自然语言处理模型的关键技术创新,并介绍了在放射肿瘤学研究中使用大型语言模型的最新应用,同时提出了一种全面的框架来评估 NLP 模型以便在临床应用前进行严格的评估和验证。
Nov, 2023
本文介绍了一种使用预训练语言模型和迁移学习的基于词 / 子词级别的模型,用于分析医学领域的文本,并在自然语言推理任务中取得了 90.6% 的准确率,为医学领域的模型构建提供了一些有用的信息。
Jun, 2019
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023
本研究使用双向编码器表示来自转换器(BERT)的基本预训练模型,并在输出层使用卷积神经网络(CNN)、全连接网络(FCN)和图卷积网络(GCN)等模块进行实验和分析。结果表明,在与 BERT 等预训练模型结合使用较小的医学文本数据集进行训练时,CNN 模型优于其他网络。该研究强调了在医学领域实现有效情感分析中模型选择的重要性,并为未来研究开发更高效的模型架构提供了参考。
Apr, 2024
本文介绍了我们提交的 WNUT-2020 任务 2 的成果:识别信息量大的 COVID-19 英文推文的半监督学习转换器集成模型,它在测试集上取得了 0.9011 的 F1 值(排名第 7),与使用 FastText 嵌入的基准系统相比表现显著提高。
Sep, 2020
本文通过使用领域专有词汇和大规模临床训练语料库,使用双向编码器解码器(BERT)模型对医疗语言推理任务进行分析和评估,与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比,我们的模型表现相同,并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型,但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。
Oct, 2022