将临床知识融入语言模型的标记器

Jun, 2024

将临床知识融入语言模型的标记器

Infusing clinical knowledge into tokenisers for language models

Abul Hasan, Jinge Wu, Quang Ngoc Nguyen, Salomé Andres, Imane Guellil...

TL;DR本研究介绍了一种新的知识增强的令牌化机制 K-Tokeniser，用于临床文本处理。通过使用语义类型来生成全局表示，并利用句子级上下文选择最佳的全局令牌表示，K-Tokeniser 在临床文本分析任务中展示了一致的改进，特别是在自动临床编码任务中取得了 13% 的微平均 $F_1$ 分数提升，同时对于语言模型的训练也有显著加速作用。

Abstract

This study introduces a novel knowledge enhanced tokenisation mechanism, k-tokeniser, for clinical text processing. Technically, at initialisation stage, →

k-tokeniser clinical text processing semantic-based tokenisation transformer-based language models automated clinical coding

发现论文，激发创造

生物医学语言模型对次优分词具有鲁棒性

本研究探索了使用更准确的生物医学分词器训练生物医学语言模型是否可以提高实体表示质量，结果表明该方法并不能提高语言模型的表现。

Jun, 2023

UMLS-KGI-BERT: 基于数据中心的转换器中的生物医学实体识别知识集成

通过从 UMLS 中提取文本序列，该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献，从而将基于图的学习目标与掩码语言预训练相结合，初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。

Jul, 2023

从大规模临床记录中开发出通用的临床语言推断模型

本文通过使用领域专有词汇和大规模临床训练语料库，使用双向编码器解码器（BERT）模型对医疗语言推理任务进行分析和评估，与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比，我们的模型表现相同，并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型，但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。

Oct, 2022

面向临床自然语言处理的轻量级 Transformer

通过知识蒸馏和不断学习等技术，本研究着眼于发展处理临床文本的高效轻量级语言模型，与生物医学文本数据训练的大型模型相比，这些模型效果相当甚至更好，并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。

Feb, 2023

基于上下文词嵌入的临床概念抽取

本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型，使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取，并在 I2B2 2010 挑战数据集上进行了测试，最终性能优于现有模型 3.4%。

Oct, 2018

UmlsBERT: 使用统一医学语言系统词表增强上下文嵌入的临床领域知识

UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.

Oct, 2020

利用上下文嵌入增强临床概念抽取

本研究旨在研究新的语言表示方法（如 ELMo，BERT）在医疗概念提取方面的应用，比较这些方法与传统词嵌入方法（word2vec，GloVe，fastText）的性能表现，并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明，基于大型医学语料库的上下文嵌入方法表现出色，优于现有所有方法。此外，与传统词表示相比，上下文嵌入方法还包含有价值的语义信息。

Feb, 2019

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

应用无监督关键词方法于从出院记录中提取出的概念

在这项研究中，使用临床自然语言处理技术解决了识别和映射标准术语的问题。提出了一种用于提取临床文本中关键概念的 TF-IDF 快捷方法，并使用基于 transformer 的模型设计了两种下游任务，结果表明 SciBERT 模型在结合提出的方法时具有优越性，并为临床笔记的关键短语提取提供了洞察。

Mar, 2023

ClinLinker：西班牙语临床概念提及的医学实体链接

这项研究通过使用一种新颖的双阶段流程来实现医学实体链接，该流程利用领域内适应的语言模型进行生物医学文本挖掘，从而显著提升了临床文本分析的性能。该方法在西班牙语内容的初期侧重下，在涉及异构医学术语并在原始数据子集上进行训练的复杂场景中，显著优于为同一目的设计的多语言语言模型。通过在两个不同的临床实体链接 Gold Standard 语料库（DisTEMIST（疾病）和 MedProcNER（临床程序））上进行评估，我们的结果表明，该方法在 25 个 Top-k 准确度和其他 Top-k 指标上的性能优于前期基准，DisTEMIST 上提高了 40 个点，MedProcNER 上提高了 43 个点，两者均归一化到 SNOMED-CT 代码。这些发现突显了我们的方法在处理语言特定细微差别方面的能力，并树立了一个新的实体链接基准，为提高数字医疗记录的实用性提供了一种强大工具。该系统的结果具有实际价值，既可以用于从临床记录中自动产生大规模结构化数据，也可用于全面提取和协调预定义的临床变量。

Apr, 2024