快与更快:两种流式矩阵分解算法的比较
本文在数据流中对二分图聚类和布尔矩阵分解问题进行了研究,提出一种使用亚线性空间复杂度,在数据流遍历一遍后能够恢复右部聚类的算法,并且在第二次遍历中能够恢复左部聚类,同时还能够扩展该算法来解决布尔矩阵分解问题。
Dec, 2020
我们提出了一种动态半流模型下用于计算图形谱稀疏化的首个单趟算法,该算法使用线性素描将 G 的入射矩阵维护为 O ((1/epsilon^2) n*.polylog (n)) 维,可以输出高概率下 G 的 (1+/-epsilon) 谱稀疏化。该方法利用了 G 的粗略稀疏器和 G 的入射矩阵的线性素描,通过等效电阻抽样边缘以得到任意精度的谱稀疏化。
Jul, 2014
在大规模数据时代,分布式系统为处理海量数据提供了可靠的、实惠的存储和可扩展的处理,本文主要介绍发展和实施随机矩阵算法在大规模并行和分布式环境中的最新工作,着重讨论随机投影和随机采样算法在极度超定的 l1 和 l2 回归问题中的实际应用和理论基础。
Feb, 2015
本研究提出了一种基于分布式学习的去中心化方法来分解稀疏矩阵为低密度矩阵,避免了中央服务器的需求,并在多个合成和真实数据集上验证了算法的性能。
Nov, 2017
本文介绍了一种名为 Dash 的高效和准确的 PARAFAC2 分解方法,它可以在双向流设置中快速、准确地分解不规则张量,并有效地处理新矩阵的新行。同时可以发现一些真实世界数据集中的异常情况,例如次贷危机和 COVID-19。
May, 2023
本研究提供了数据流算法,以计算决策树学习中的最佳分割点,从而将数据分为两组,使得均方误差(对于回归)或误分类率(对于分类)最小化。这些算法利用亚线性空间和少量遍数解决这些问题,并可扩展到大规模并行计算模型。
Mar, 2024
该研究使用基于矩阵草图的方法来解决在大规模图分析中传统方法遇到的挑战,尤其是无监督学习的社区结构划分问题,实验表明该方法在分配内存中可以获得出色的聚类效果,同时提高了聚类速度。
Jul, 2020
本研究重要的优化模块是张量分解,特别是在潜变量模型中。作者介绍了两种新的算法技术:在线过滤和核化,并提供了六种算法来实现不同的核心集大小、更新时间和工作空间的折衷方案,以击败或匹配各种现有算法。在矩阵的情况下,作者的在线行采样算法保证了(1 + ε)的相对误差谱逼近。本研究还展示了张量分解在学习单主题建模中的应用。
Jun, 2020
我们提出了一种新的算法,用于在单次遍历的边流设置中执行图聚类,并基于模块度函数提供了理论上的解释。我们对从一百万到十亿边的大规模现实生活图表进行实验,并展示了该算法比现有算法运行速度快十倍以上,并可在最大的图表上获得相似或更好的检测分数。
Dec, 2017