基于自编码器的医学数据属性噪声处理方法

Jun, 2022

基于自编码器的医学数据属性噪声处理方法

Autoencoder-based Attribute Noise Handling Method for Medical Data

Thomas Ranvier, Haytham Elgazel, Emmanuel Coquery, Khalid Benabdeslem

TL;DR本研究提出了一种基于自编码器的预处理方法，该方法可以纠正混合类型的表格数据中的属性噪声，在多个真实医疗数据集上表现优于现有的噪声校正和数据填充方法。

Abstract

medical datasets are particularly subject to attribute noise, that is, missing and erroneous values. attribute noise is known to be largel

attribute noise autoencoder tabular data medical datasets imputation methods

发现论文，激发创造

MIDA: 使用去噪自编码器进行多重插补

本文提出一种基于过完备去噪深度自编码器的多重插补模型，可以处理不同的数据类型、缺失模式、缺失比例和分布，评估表明我们的模型在多种条件下显著优于现有的最先进方法，同时改善了末端的线性分析。

May, 2017

使用卷积去噪自编码器进行医学图像去噪

本文介绍一种使用卷积层构建的去噪自编码器进行医学图像去噪的方法，通过少量样本的训练，可以高效地去除医学图像噪声。同时，本文提出了将异构图像进行合并来提高训练样本的可行性，并成功地实现了最简单的网络重构高噪声医学图像的效果。

Aug, 2016

缺失数据下的 VAEs

开发了一种新颖的潜在变量模型，通过生成缺失数据的损坏过程对处理缺失数据集进行了模糊处理，并推导出相应的易于实现、可处理可随机缺失和不随机缺失数据、适用于高维输入、VAE 编码器和解码器原则性访问指标变量以确定数据元素是否缺失的可跟踪证据下限 (ELBO)。在 MNIST 和 SVHN 数据集上，相比现有方法，证明了观测数据的边际对数似然和更好的缺失数据插值提高。

Jun, 2020

登上 ISS: 不平衡的自监督：混合表格数据集的缩放自编码器发现

通过研究表格数据中自我监督学习不平衡，尤其是在图像数据集中，看到现有研究主要集中在图像数据集，本文旨在填补这一空白，着重探讨自我监督学习在表格数据领域中因数据不平衡而带来的具体挑战，重点关注自编码器。我们分析了目前使用一个热编码器和标准损失函数（MSE 或交叉熵）对混合表格数据进行编码的方法的缺点，特别是在分类变量不平衡时。我们提出了一种新的平衡学习的度量方法：多重监督平衡 MSE。这种方法通过平衡变量的影响来减少重构误差。最后，我们通过实验证明了这种新度量方法相比于标准 MSE，在数据集不平衡且学习过程不充分时表现更好，并在相反情况下提供类似的结果。

Mar, 2024

用于审计数据的无监督异常检测及分类编码影响

本文介绍了车辆索赔数据集，并提出用于表示分类属性的 GEL 编码和嵌入层。通过比较标签，One Hot 编码，GEL 编码和嵌入层，在标记，重建错误，密度估计和对比学习方法上，评估了该数据集的浅层和深度学习方法。

Oct, 2022

混合类型数据的稳健变分自编码器用于异常检测和修复

本文提出了 Robust Variational Autoencoder (RVAE) 作为一个深度生成模型来解决表格数据中无监督的异常点检测和修复问题，RVAE 能够识别出异常的单元格并进行修复，该方法在混合的表格数据中的异常点检测和修复中表现优异。

Jul, 2019

基于理论的重新思考自编码器在医学异常检测中的应用

利用信息理论揭示了基于自动编码器的重建方法在异常检测中的原理和设计理念，并验证了通过最小化潜在向量的信息熵来提高自动编码器在异常检测中的效果。

Mar, 2024

基于自编码器的 ICU 临床代码预测

研究使用 ML 方法对患者的电子健康记录中的临床代码进行自动填充，其中包括使用不完整临床代码和其他临床相关数据来完成此任务，结果表明使用自编码器方法获得最佳表现。

May, 2023

基于自编码器学习结构的可调节隐私性

本文提出了一种利用自编码器结构来平衡数据提供商和推理中心隐私和效用之间权衡的方法，其中将数据分为私密和非私密部份并通过分类器将其与噪音合并，最后使用解码器将其重构，结果表明该方法比先前的方法具有更好的性能。

Apr, 2023

基于自编码器的消除伪相关性方法

通过自动编码器方法分析了 Global Wheat Head Detection（GWHD）2021 数据集中存在的错误关联，并使用修复和加权盒融合方法成功提高了平均域准确率（ADA），证明了该方法能够抑制部分 GWHD 2021 数据集中的错误关联。

Jun, 2024