使用预训练语言模型进行自动ICD编码

Jul, 2022

使用预训练语言模型进行自动ICD编码

PLM-ICD: Automatic ICD Coding with Pretrained Language Models

Chao-Wei Huang, Shang-Chi Tsai, Yun-Nung Chen

TL;DR本文旨在分析预训练语言模型在自动ICD编码任务上表现不佳的原因，并提出了PLMICD框架来克服该问题，实验证明该框架在ICD编码任务上能够取得最先进的性能。

Abstract

Automatically classifying electronic health records (EHRs) into diagnostic codes has been challenging to the nlp community. State-of-the-art methods treated this problem as a multilabel classification problem and

发现论文，激发创造

BERT-XML：利用BERT预训练进行大规模自动ICD编码

该研究提出了一种名为BERT-XML的机器学习模型，利用最近发展的无监督预训练，从电子病历中自动化地进行ICD编码，利用数百万电子病历笔记训练了一个BERT模型以预测数千个独特的ICD代码。

May, 2020

基于BERT的自动ICD编码：限制与机遇

本研究使用PubMedBERT，探究了自动ICD编码任务的性能。研究表明，目前的BERT模型在处理长文本时存在困难，提出更好的信息汇聚方法是改进ICD编码的主要需要。

Apr, 2021

知识注入的提示式微调，用于多标签少样本ICD编码

本研究通过适应具有标签语义的提示微调技术以及注入三种特定于医学领域的知识（层次结构、同义词和缩写）的预训练来解决自动ICD编码中的长尾挑战，并在MIMIC-III-full数据集上取得了14.5％的性能提升，并且在MIMIC-III-rare50数据集的微调情况下提高了宏F1和微F1。

Oct, 2022

基于极端多标签长文本变换器的自动ICD编码模型

本研究探讨基于Transformer的模型用于自动化ICD编码任务，研究基于MIMIC-III数据集的三种Transformer模型表现，并对一个优化过的PLM-ICD模型和一个新的XR-LAT模型进行了评估，证明优化过的PLM-ICD模型是新的SOTA模型，而XR-LAT模型能与之竞争。

Dec, 2022

法语临床文本上的ICD-10自动编码关联：一个具有挑战性的任务

本文提出一种将 Transformer 模型应用于 ICD 诊断代码自动关联的方法，实现了对于大规模标签集的多标签分类，并在 French Clinical 数据集上实验取得了比常见模型高 55% 的 F1-score 结果。

Apr, 2023

一种用于高效ICD编码的两阶段解码器

本文提出了一个两阶段解码机制来预测国际疾病分类（ICD）码，该模型利用了代码的分层属性，在公共MIMIC-III数据集上表现良好。

May, 2023

利用现成大型语言模型进行自动临床编码

利用大型预训练生成语言模型开发出零样本和少样本编码分配的实用解决方案，通过信息提取，利用ICD本体论和专业临床编码任务描述，检索相关提及，并利用GPT-4在第二阶段进行元细化，实现了自动ICD编码的方法，无需任务特定的学习，而在更稀缺的类别上达到了最优的性能。

Oct, 2023

基于树型对比学习的半结构化自动ICD编码研究

通过研究调查临床记录的半结构化性质，我们提出了一种自动算法将其分割为不同的部分。为了解决现有ICD编码模型在数据有限性方面的可变性问题，我们引入了对于部分使用基于树编辑距离的软多标签相似度度量的对比预训练方法。此外，我们设计了一个掩码部分训练策略，使ICD编码模型能够定位与ICD编码相关的部分。广泛的实验结果表明，我们提出的训练策略有效地提升了现有ICD编码方法的性能。

Oct, 2023

通过关注多种标签嵌入进行准确和良好校准的ICD编码分配

该论文描述了一种新颖的自动ICD编码方法，结合了先前相关工作的几个思想。我们特别采用一种强大的基于Transformer的文本编码模型，并针对冗长的临床叙述，探索了将基本编码模型调整为Longformer，或者将文本分成块并独立处理的方法。编码器产生的表示与标签嵌入机制相结合，探索了多样的ICD编码同义词。通过使用MIMIC-III数据集的不同拆分进行实验，结果显示提出的方法在ICD编码方面优于当前最先进的模型，并且标签嵌入显著促成了良好的性能。该方法还导致适当校准的分类结果，可以有效地用于下游任务如数量化。

Feb, 2024

大型语言模型是优秀的医学编码器，只要提供合适的工具

该研究介绍了一种用于自动ICD-10-CM医学编码的新型两阶段检索-排序系统，并将其性能与Vanilla Large Language Model (LLM)方法进行了比较。在对100个单项医疗状况的数据集上评估两个系统时，检索-排序系统在预测正确ICD-10-CM代码方面达到了100%的准确率，显著优于只有6%准确率的Vanilla LLM (GPT-3.5-turbo)。研究分析表明，检索-排序系统在处理不同专业的各种医学术语方面具有更高的精确性。尽管这些结果令人鼓舞，我们认识到使用简化输入的局限性以及进一步在更复杂、现实的医疗案例上进行测试的需求。这项研究为提高医学编码的效率和准确性的持续努力做出了贡献，突显了基于检索的方法的重要性。

Jul, 2024