BERT-XML:利用 BERT 预训练进行大规模自动 ICD 编码
本研究使用 PubMedBERT,探究了自动 ICD 编码任务的性能。研究表明,目前的 BERT 模型在处理长文本时存在困难,提出更好的信息汇聚方法是改进 ICD 编码的主要需要。
Apr, 2021
利用大型预训练生成语言模型开发出零样本和少样本编码分配的实用解决方案,通过信息提取,利用 ICD 本体论和专业临床编码任务描述,检索相关提及,并利用 GPT-4 在第二阶段进行元细化,实现了自动 ICD 编码的方法,无需任务特定的学习,而在更稀缺的类别上达到了最优的性能。
Oct, 2023
本研究证明了一种简单可扩展的方法,使用已有的 Transformer 模型(如 BERT)处理长文本在 ICD 编码上的表现明显优于以往,比 CNN-based 模型更为出色。
Nov, 2022
该论文描述了一种新颖的自动 ICD 编码方法,结合了先前相关工作的几个思想。我们特别采用一种强大的基于 Transformer 的文本编码模型,并针对冗长的临床叙述,探索了将基本编码模型调整为 Longformer,或者将文本分成块并独立处理的方法。编码器产生的表示与标签嵌入机制相结合,探索了多样的 ICD 编码同义词。通过使用 MIMIC-III 数据集的不同拆分进行实验,结果显示提出的方法在 ICD 编码方面优于当前最先进的模型,并且标签嵌入显著促成了良好的性能。该方法还导致适当校准的分类结果,可以有效地用于下游任务如数量化。
Feb, 2024
通过研究调查临床记录的半结构化性质,我们提出了一种自动算法将其分割为不同的部分。为了解决现有 ICD 编码模型在数据有限性方面的可变性问题,我们引入了对于部分使用基于树编辑距离的软多标签相似度度量的对比预训练方法。此外,我们设计了一个掩码部分训练策略,使 ICD 编码模型能够定位与 ICD 编码相关的部分。广泛的实验结果表明,我们提出的训练策略有效地提升了现有 ICD 编码方法的性能。
Oct, 2023
本文提出了一种新的标签关注模型和层级联合学习机制,可自动处理 ICD 编码和解决类别不平衡问题,并取得了三个基准 MIMIC 数据集的最新技术成果。
Jul, 2020
本文介绍了一种将自然语言处理应用于医学编码的方法,该方法限制了模型输入的范围并构建基于本地上下文的 ICD 代码和实体的上下文表示,并在此基础上进行文献级预测,这种方法在处理所有类型的 ICD 代码方面表现出优异的效果,包括在处理罕见和未见过的代码时也表现出色。
Aug, 2022
Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型,适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测,表明 Med-BERT 具有较高的准确性和泛化性能,可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。
May, 2020
本文提出一种将 Transformer 模型应用于 ICD 诊断代码自动关联的方法,实现了对于大规模标签集的多标签分类,并在 French Clinical 数据集上实验取得了比常见模型高 55% 的 F1-score 结果。
Apr, 2023