可学习的提示作为伪填充：重新评估传统电子病历数据填充在下游临床预测中的必要性

Jan, 2024

可学习的提示作为伪填充：重新评估传统电子病历数据填充在下游临床预测中的必要性

Learnable Prompt as Pseudo-Imputation: Reassessing the Necessity of Traditional EHR Data Imputation in Downstream Clinical Prediction

PDF

Weibin Liao, Yinghao Zhu, Zixiang Wang, Xu Chu, Yasha Wang...

TL;DR基于电子健康记录（EHR）分析患者的健康状况是医学信息学中的一个基础研究问题。现有的深度学习训练协议需要使用统计信息或填补模型来重构缺失值，但是这限制了模型性能。本文引入了 Learnable Prompt as Pseudo Imputation（PAI）作为一种新的训练协议，通过构建可学习的提示来模拟下游模型对缺失值的隐含偏好，从而显著提高所有 EHR 分析模型的性能。此外，实验结果表明，在数据不足和高缺失率的情况下，PAI 表现出更高的鲁棒性。更重要的是，在涉及零射评估的跨机构数据的真实应用中，PAI 展现了更强的模型泛化能力，特别是对非重叠特征。

Abstract

Analyzing the health status of patients based on electronic health records (EHR) is a fundamental research problem in medical informatics. The presence of extensive missing values in EHR makes it challenging for deep ne

electronic health records deep neural networks learnable prompt as pseudo imputation ehr analysis models model generalization

发现论文，激发创造

基于对比学习的基于电子健康记录的入院死亡风险模型中的填补与预测网络

通过使用电子健康记录（EHR）数据，基于对比学习模型的插补 - 预测网络预测住院死亡风险，提供患者健康状况的早期警告给医护人员，并解决 EHR 数据不规则性和缺失值的问题。实验表明，该方法在插补和预测任务中胜过当前的最先进方法。

Aug, 2023

PromptEHR: 基于 Prompt 学习的条件式电子健康记录生成

本文提出了一种基于语言模型将电子医疗记录 (EHRs) 的生成形式转化为文本翻译任务的方法，使得事件插入更加灵活。该方法实现了根据数值和分类人口特征来控制生成的提示学习方式，其评估了两个迷惑度度量，考虑了纵向和跨模态插值的关系，同时利用了隐私保护评估的两个对手，展现了其在 MIMIC-III 数据上生成现实 EHRs 的优越性 (平均 longitudinal imputation perplexity 降低 53.1% 和平均 cross-modality imputation perplexity 降低 45.3% 与最佳基线相比)。

Oct, 2022

SMART：面向预训练缺失感知模型的患者健康状态预测

通过自我监督的预训练方法，SMART（自我监督的缺失感知表示学习方法）通过详细的注意力机制对缺失信息进行编码，并通过学习潜在空间中的缺失数据表示来填补缺失值，从而提高了患者健康状况预测的泛化性和鲁棒性。在六个电子健康记录任务上进行的广泛实验验证了 SMART 的有效性，表明其优于现有方法。

May, 2024

医疗时间序列的知识增强条件插补

这项研究提出了一种新颖的方法来解决多元时间序列中缺失数据的挑战，特别关注医疗数据的复杂性。我们的条件自注意力填补模型（CSAI），基于变换器框架，引入了针对医学时间序列数据的条件隐藏状态初始化。此方法与传统填补技术不同之处在于专门针对医疗数据集中经常被忽视的缺失数据分布的不平衡进行调整。通过整合先进的知识嵌入和非均匀掩蔽策略，CSAI 能够灵活调整至电子病历中缺失数据的独特模式。

Dec, 2023

IGNITE：时间序列电子健康记录的个体化填补生成

我们提出了一个新的深度学习模型 IGNITE，利用条件双变分自编码器和双阶段注意力，在多元数据上学习了时间上的患者动态变化，生成个性化的真实值，根据个体的人口特征和治疗条件调节。我们进一步扩展了 IGNITE 的应用范围，从填补缺失值发展为个性化数据合成器，用于生成未曾观察到的缺失电子健康记录或者甚至生成新的患者，应用于各种应用中。我们在三个大型公开数据集上验证了我们的模型，并展示了 IGNITE 在缺失数据重建和任务预测方面优于现有方法。

Jan, 2024

PROMISSING: 剪枝神经网络中的缺失值

该研究提出了一种名为 PROMISSING 的神经网络学习和推断过程中对缺失值进行修剪的方法，无需移除或填补缺失值，而是将其作为一种新的信息源，实现类似于各种填补技术的预测效果，并提高模型对于缺失信息的处理能力。

Jun, 2022

利用原型患者表征借助特征缺失感知校准来缓解电子病历数据稀疏性问题

通过间接插补和特征可信度学习，我们的研究提出了一种改进的电子健康记录 (Electronic Health Record) 预测模型，能够更准确地预测住院病人的死亡情况，此模型在 MIMIC-III 和 MIMIC-IV 数据集上实验证明优于现有的模型。

Sep, 2023

医疗数据中的缺失值和填补：可解释机器学习能提供帮助吗？

本文介绍了一种在解决缺失数据问题时使用可解释机器学习的方法。将高精度的玻璃盒可解释性增强机（EBMs）用于缺失值处理，可帮助用户更好地了解缺失机制并检测可能引入的风险。实验表明了该方法在处理真实医疗数据集时的有效性。

Apr, 2023

使用结构化纵向电子健康记录数据激励大规模语言模型进行零样本临床预测

针对结构化长期电子健康记录 (EHR) 数据与大型语言模型 (LLMs) 集成时的固有复杂性，本研究调查了像 GPT-4 这样的 LLMs 对 EHR 数据的适应性。特别关注其零样本能力，使其能够在并未明确训练的情况下进行预测。通过考虑特定的 EHR 特征 (如单位和参考范围)，采用与临床环境相一致的上下文学习策略，我们的寻求方法能够应对 EHR 数据的纵向、稀疏和知识注入的特性。通过对 MIMIC-IV 和 TJH 数据集进行综合实验，证明了我们精心设计的提示框架下，LLMs 在关键任务 (如死亡率、住院天数和 30 天再入院率) 的预测性能可以提高约 35％，在少样本情景中超越了机器学习模型。我们的研究强调了 LLMs 在提高临床决策能力方面的潜力，尤其是在没有标签数据的紧急医疗情况下，如新发疾病的爆发。可通过此 https URL 获得代码，以便能重现研究结果。

Jan, 2024

可扩展和准确的电子健康记录深度学习

使用电子健康记录进行循证医学和准确预测，通过 Fast Healthcare Interoperability Resources (FHIR) 格式表示病人的原始病历记录，并使用深度学习方法进行多中心的多个医疗事件预测，包括住院死亡率、未经计划的 30 天再入院率、医院停留时间延长、所有患者的最终出院诊断等。

Jan, 2018