稀疏数据的浅层自编码器
关系推断对于从产品推荐到药物发现等应用都是一个重要任务。我们将线性模型扩展成一个浅层自动编码器,用于解决稀疏矩阵补全问题,证明了我们方法在预测药物靶标相互作用和药物疾病关联方面的速度和准确性优势。
Jan, 2024
本文提出了一种基于深度自编码器的新模型,通过对 Netflix 数据集进行评分预测任务,相对于之前的模型具有明显优势。该模型不需要层预训练,采用 6 层自编码器进行端到端的训练,通过实验证明:深度自编码器模型的泛化能力比浅层模型更好,负部分的非线性激活函数对于训练深度模型至关重要,必须大量采用正则化技术,如 dropout,以防止过拟合。此外,我们提出了一种基于迭代输出反馈的训练算法,以克服协作过滤的自然稀疏性,该算法显著加速了训练并改善了模型性能。
Aug, 2017
本文介绍了一种用于推荐系统的基于自编码器的架构,通过使用适用于缺失数据的损失函数和引入侧面信息来改进其性能。实验证明,侧面信息对冷启动用户 / 物品的影响更显著。
Jun, 2016
本文采用高维回归问题的解析解取代计算开销大的 SLIM 方法,通过重新缩放处理 item-popularities 偏差,得到了稀疏解的性质,并且在三个公共数据集的实验中,相对于 SLIM 在准确度和训练时间上均有显著提高,同时在高度个性化推荐方面,还优于多种最新的非线性自动编码器等模型。
Apr, 2019
本文利用协同过滤领域中的固有项群组,提出了一种结构学习方法,可以将自动编码器推荐算法的连接结构优化为稀疏连接,其结果比 Mult-vae/Mult-dae 等最先进的方法更为优越。
Aug, 2020
对于 1 位稀疏高斯数据压缩的典型情况,我们证明梯度下降收敛到一个完全忽略输入稀疏结构的解,且相对于高斯源完全没有稀疏性能。对于一般数据分布,我们提供了关于梯度下降最小化器形状的相变现象的证据,关键是数据的稀疏度:在关键稀疏性水平以下,最小化器是均匀随机选择的旋转(就像在非稀疏数据的压缩中一样);在关键稀疏度以上,最小化器是恒等变换(经过排列)。最后,通过利用与近似传递算法的联系,我们展示了如何改进稀疏数据的高斯性能:对浅层架构添加去噪函数已经可以显式地减少损失,而适当的多层解码器则可以进一步改善。我们在图像数据集(如 CIFAR-10 和 MNIST)上验证了我们的发现。
Feb, 2024
本文针对降维问题提出并分析了一种由序列化偏差估计、线性趋势估计和非线性残差估计组成的增量自编码器。实验结果表明,仅通过浅层网络封装非线性行为的自编码器能够识别具有低自编码误差的数据集的内在维度。该研究进一步比较了深层和浅层网络结构及其训练方法,发现深层网络结构在识别内在维度时获得较低的自编码误差,但是与浅层网络相比,检测到的维度并没有变化。
Oct, 2022
本研究提出一种基于 VAE 的非线性概率模型,用于解决协作过滤问题,相对于现有的线性因子模型,具有更强的建模能力,并使用贝叶斯推断进行参数估计来得到更好的泛化性能。本方法在现有多个数据集上均取得了显著优异的性能表现,并对使用多项式分布作为似然函数进行了比较实验,分析了使用贝叶斯方法的优缺点及适用场景。
Feb, 2018
本研究旨在探讨通过鼓励稀疏性来学习表示的有效性,提出了一种名为 k-sparse 自编码器的方法,该方法取得了比其他方法更好的 MNIST 和 NORB 分类结果。
Dec, 2013