医学文档理解的分层 BERT 模型
该研究提出了一种名为 BERT-XML 的机器学习模型,利用最近发展的无监督预训练,从电子病历中自动化地进行 ICD 编码,利用数百万电子病历笔记训练了一个 BERT 模型以预测数千个独特的 ICD 代码。
May, 2020
本研究使用 PubMedBERT,探究了自动 ICD 编码任务的性能。研究表明,目前的 BERT 模型在处理长文本时存在困难,提出更好的信息汇聚方法是改进 ICD 编码的主要需要。
Apr, 2021
本研究使用 BERT 进行文档分类,并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销,研究者提出使用知识蒸馏技术,将 BERT 的知识转移到小型双向 LSTM 中,并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平,为未来的工作提供了基础。
Apr, 2019
Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型,适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测,表明 Med-BERT 具有较高的准确性和泛化性能,可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。
May, 2020
本研究证明了一种简单可扩展的方法,使用已有的 Transformer 模型(如 BERT)处理长文本在 ICD 编码上的表现明显优于以往,比 CNN-based 模型更为出色。
Nov, 2022
为了解决医疗文本中医学术语、文本类型等多样性问题,我们提出一种名为 KG-MTT-BERT 的模型,通过医疗知识图谱的整合,拓展了 BERT 模型,可以更好地处理长文本和多类型文本,并在 DRG 分类等任务上表现优异。
Oct, 2022
本研究说明了一种基于层次 BERT 模型(HBM)的长文本分类方法,其可以在有限的标记实例数量下实现比现有技术更高的性能,并且可以被用来作为长文本解释的有用工具。
Jun, 2021
该论文描述了一种新颖的自动 ICD 编码方法,结合了先前相关工作的几个思想。我们特别采用一种强大的基于 Transformer 的文本编码模型,并针对冗长的临床叙述,探索了将基本编码模型调整为 Longformer,或者将文本分成块并独立处理的方法。编码器产生的表示与标签嵌入机制相结合,探索了多样的 ICD 编码同义词。通过使用 MIMIC-III 数据集的不同拆分进行实验,结果显示提出的方法在 ICD 编码方面优于当前最先进的模型,并且标签嵌入显著促成了良好的性能。该方法还导致适当校准的分类结果,可以有效地用于下游任务如数量化。
Feb, 2024
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022