科学数据压缩的稀疏 L1 自编码器
我们提出了一个神经网络模型,能够在不牺牲重建质量的情况下,显著压缩大规模科学数据,并在公开的科学基准数据集和高分辨率气候模型数据集上进行了测试,达到了 140 的压缩比和可忽略的重建误差。
Jul, 2023
本研究借鉴于压缩感知技术提出了基于不确定性自编码器的无监督表示学习框架,利用低维投影作为自编码器的噪声隐含表示,并直接学习数据信号的压缩和恢复,这一模型统一了压缩感知、生成模型、降维方法等多种线性研究,所得的统计压缩感知结果比其他竞争方法平均提高 32%。
Dec, 2018
对于 1 位稀疏高斯数据压缩的典型情况,我们证明梯度下降收敛到一个完全忽略输入稀疏结构的解,且相对于高斯源完全没有稀疏性能。对于一般数据分布,我们提供了关于梯度下降最小化器形状的相变现象的证据,关键是数据的稀疏度:在关键稀疏性水平以下,最小化器是均匀随机选择的旋转(就像在非稀疏数据的压缩中一样);在关键稀疏度以上,最小化器是恒等变换(经过排列)。最后,通过利用与近似传递算法的联系,我们展示了如何改进稀疏数据的高斯性能:对浅层架构添加去噪函数已经可以显式地减少损失,而适当的多层解码器则可以进一步改善。我们在图像数据集(如 CIFAR-10 和 MNIST)上验证了我们的发现。
Feb, 2024
这篇文章介绍了一种对变分自动编码器 (VAEs) 进行简单扩展的方法,通过渐进性减小潜空间大小来自动确定训练过程中的最佳潜空间大小,并将该方法与传统的超参数网格搜索进行比较,结果表明其速度显著更快,且在四个图像数据集上实现了最佳的维度。此外,还证明了我们方法的最终性能与从头开始训练的最佳潜空间大小相当,因此可能作为一种便利的替代方法。
Dec, 2023
该论文介绍了一种名为最小体积的简单而有效的正则化方法,它可以减少自动编码器所需的潜在维度数量,而无需任何关于数据集固有维度的先验知识。通过证明解码器的 Lipschitz 连续性是其有效性的关键,论文揭示了 PCA 仅是其线性特例的证明,并表明在应用于非线性模型时具有类似于 PCA 的重要性排序效果。作者通过在一些教学玩具问题上演示正则化的直观理解,并在包括 MNIST、CIFAR-10 和 CelebA 在内的几个基准问题上展示了其有效性。
Apr, 2024
我们提出了一种名为低秩自动编码器(LoRAE)的新方法,它通过使用低秩正则化器自适应地重构一个低维潜在空间,同时保持自动编码器的基本目标,以便在嵌入数据于一个低维空间的同时保留重要信息。我们在理论上为模型建立了更严格的误差界限,而在实践中,我们的模型通过图像生成和下游分类等各种任务展示了其优越性,理论和实践结果都强调了获取低维嵌入的重要性。
Oct, 2023
通过使用自动编码器学习算法对稀疏高维数据进行压缩,实现对临床笔记的表征特征空间的稀疏性减少,从而提高分类器的分类性能,最终该分类器在检测患者状况时的准确率可达到 92%,召回率、精确率和 f1-score 均为 91%。此外,理论信息瓶颈框架也被应用于该压缩工作机制和自动编码器预测过程的演示。
Sep, 2022
证明了 L2 正则化线性自编码器在所有临界点处均对称并学习到解码器的左奇异向量作为主方向,相关结果说明了主成分分析算法、计算神经科学和学习的代数拓扑性质。
Jan, 2019