科学数据压缩的稀疏 L1 自编码器

May, 2024

Sparse $L^1$-Autoencoders for Scientific Data Compression

Matthias Chung, Rick Archibald, Paul Atzberger, Jack Michael Solomon

TL;DR使用高维稀疏特征表达式通过 L1 正则化的自编码器产生的信息丰富潜在空间，可以有效地用于科学数据压缩，解决高性能分布式计算环境下传输、存储和分析的瓶颈问题。

Abstract

scientific datasets present unique challenges for machine learning-driven compression methods, including more stringent requirements on accuracy and mitigation of potential invalidating artifacts. Drawing on results from →

scientific datasets machine learning-driven compression compressed sensing autoencoders high-performance distributed computing

发现论文，激发创造

基于分层自编码器的大规模高分辨率科学数据有损压缩

我们提出了一个神经网络模型，能够在不牺牲重建质量的情况下，显著压缩大规模科学数据，并在公开的科学基准数据集和高分辨率气候模型数据集上进行了测试，达到了 140 的压缩比和可忽略的重建误差。

Jul, 2023

不确定性自编码器：通过变分信息最大化学习压缩表示

本研究借鉴于压缩感知技术提出了基于不确定性自编码器的无监督表示学习框架，利用低维投影作为自编码器的噪声隐含表示，并直接学习数据信号的压缩和恢复，这一模型统一了压缩感知、生成模型、降维方法等多种线性研究，所得的统计压缩感知结果比其他竞争方法平均提高 32%。

Dec, 2018

V1 的稀疏几何自编码器模型

该论文提出了一种基于自编码器的结构稀疏方法，可以更好地匹配灵长类数据，使用加权 L1 约束的自编码器目标函数保留了稀疏编码框架的核心思想。

Feb, 2023

结构化数据的自动编码器压缩：非线性和深度的可证明优势

对于 1 位稀疏高斯数据压缩的典型情况，我们证明梯度下降收敛到一个完全忽略输入稀疏结构的解，且相对于高斯源完全没有稀疏性能。对于一般数据分布，我们提供了关于梯度下降最小化器形状的相变现象的证据，关键是数据的稀疏度：在关键稀疏性水平以下，最小化器是均匀随机选择的旋转（就像在非稀疏数据的压缩中一样）；在关键稀疏度以上，最小化器是恒等变换（经过排列）。最后，通过利用与近似传递算法的联系，我们展示了如何改进稀疏数据的高斯性能：对浅层架构添加去噪函数已经可以显式地减少损失，而适当的多层解码器则可以进一步改善。我们在图像数据集（如 CIFAR-10 和 MNIST）上验证了我们的发现。

Feb, 2024

变分自编码器中潜空间的自适应压缩

这篇文章介绍了一种对变分自动编码器 (VAEs) 进行简单扩展的方法，通过渐进性减小潜空间大小来自动确定训练过程中的最佳潜空间大小，并将该方法与传统的超参数网格搜索进行比较，结果表明其速度显著更快，且在四个图像数据集上实现了最佳的维度。此外，还证明了我们方法的最终性能与从头开始训练的最佳潜空间大小相当，因此可能作为一种便利的替代方法。

Dec, 2023

通过最小体积压缩潜空间

该论文介绍了一种名为最小体积的简单而有效的正则化方法，它可以减少自动编码器所需的潜在维度数量，而无需任何关于数据集固有维度的先验知识。通过证明解码器的 Lipschitz 连续性是其有效性的关键，论文揭示了 PCA 仅是其线性特例的证明，并表明在应用于非线性模型时具有类似于 PCA 的重要性排序效果。作者通过在一些教学玩具问题上演示正则化的直观理解，并在包括 MNIST、CIFAR-10 和 CelebA 在内的几个基准问题上展示了其有效性。

Apr, 2024

用简单的确定性自编码器学习低秩潜空间的理论与实证洞见

我们提出了一种名为低秩自动编码器（LoRAE）的新方法，它通过使用低秩正则化器自适应地重构一个低维潜在空间，同时保持自动编码器的基本目标，以便在嵌入数据于一个低维空间的同时保留重要信息。我们在理论上为模型建立了更严格的误差界限，而在实践中，我们的模型通过图像生成和下游分类等各种任务展示了其优越性，理论和实践结果都强调了获取低维嵌入的重要性。

Oct, 2023

自编码器在临床记录表示学习中的稀疏性降维适应

通过使用自动编码器学习算法对稀疏高维数据进行压缩，实现对临床笔记的表征特征空间的稀疏性减少，从而提高分类器的分类性能，最终该分类器在检测患者状况时的准确率可达到 92%，召回率、精确率和 f1-score 均为 91%。此外，理论信息瓶颈框架也被应用于该压缩工作机制和自动编码器预测过程的演示。

Sep, 2022

使用自编码器解决反问题

通过生成函数和迭代算法解决压缩感知问题，研究了在噪声存在的情况下恢复具有复杂结构信号的表现，并使用自动编码器定义和强制源结构.

Jan, 2019

正则化线性自编码器的损失景观

证明了 L2 正则化线性自编码器在所有临界点处均对称并学习到解码器的左奇异向量作为主方向，相关结果说明了主成分分析算法、计算神经科学和学习的代数拓扑性质。

Jan, 2019