快与更快：两种流式矩阵分解算法的比较

Feb, 2011

快与更快：两种流式矩阵分解算法的比较

Fast and Faster: A Comparison of Two Streamed Matrix Decomposition Algorithms

Radim Řeh{ů}řek

TL;DR本文研究了常量内存和具有单个传递特性的分布式算法与两个阶段随机算法之间的比较，以及分布式计算，过采样和内存权衡对这两种算法的准确性和性能的影响，使用的实际数据是英文维基百科的全部内容，在 Latent Semantic Analysis 应用中。

Abstract

With the explosion of the size of digital dataset, the limiting factor for decomposition algorithms is the \emph{number of passes} over the input, as the input is often stored out-of-core or even off-site. Moreover, we're only interested in algorithms that operate in \emph{

decomposition algorithms distributed computing constant memory stochastic algorithm latent semantic analysis

发现论文，激发创造

数据流中的双聚类和布尔矩阵分解

本文在数据流中对二分图聚类和布尔矩阵分解问题进行了研究，提出一种使用亚线性空间复杂度，在数据流遍历一遍后能够恢复右部聚类的算法，并且在第二次遍历中能够恢复左部聚类，同时还能够扩展该算法来解决布尔矩阵分解问题。

Dec, 2020

动态流中的单遍谱稀疏化

我们提出了一种动态半流模型下用于计算图形谱稀疏化的首个单趟算法，该算法使用线性素描将 G 的入射矩阵维护为 O ((1/epsilon^2) n*.polylog (n)) 维，可以输出高概率下 G 的 (1+/-epsilon) 谱稀疏化。该方法利用了 G 的粗略稀疏器和 G 的入射矩阵的线性素描，通过等效电阻抽样边缘以得到任意精度的谱稀疏化。

Jul, 2014

在并行和分布式环境中实现随机矩阵算法

在大规模数据时代，分布式系统为处理海量数据提供了可靠的、实惠的存储和可扩展的处理，本文主要介绍发展和实施随机矩阵算法在大规模并行和分布式环境中的最新工作，着重讨论随机投影和随机采样算法在极度超定的 l1 和 l2 回归问题中的实际应用和理论基础。

Feb, 2015

MACH: 快速随机张量分解

本文提出了一种新的采样算法 MACH，用于计算 Tucker 分解，能够有效地处理大规模，计算密集型和后期数据分析的多方面数据。

Sep, 2009

通过流言算法实现矩阵完形填空的二维分解方法

本研究提出了一种基于分布式学习的去中心化方法来分解稀疏矩阵为低密度矩阵，避免了中央服务器的需求，并在多个合成和真实数据集上验证了算法的性能。

Nov, 2017

基于双向流 PARAFAC2 的不规则张量快速准确算法及应用

本文介绍了一种名为 Dash 的高效和准确的 PARAFAC2 分解方法，它可以在双向流设置中快速、准确地分解不规则张量，并有效地处理新矩阵的新行。同时可以发现一些真实世界数据集中的异常情况，例如次贷危机和 COVID-19。

May, 2023

在流式和大规模并行模型中找到决策树分裂

本研究提供了数据流算法，以计算决策树学习中的最佳分割点，从而将数据分为两组，使得均方误差（对于回归）或误分类率（对于分类）最小化。这些算法利用亚线性空间和少量遍数解决这些问题，并可扩展到大规模并行计算模型。

Mar, 2024

分布式草图缩放图聚类

该研究使用基于矩阵草图的方法来解决在大规模图分析中传统方法遇到的挑战，尤其是无监督学习的社区结构划分问题，实验表明该方法在分配内存中可以获得出色的聚类效果，同时提高了聚类速度。

Jul, 2020

对称张量分解的流式核心集

本研究重要的优化模块是张量分解，特别是在潜变量模型中。作者介绍了两种新的算法技术：在线过滤和核化，并提供了六种算法来实现不同的核心集大小、更新时间和工作空间的折衷方案，以击败或匹配各种现有算法。在矩阵的情况下，作者的在线行采样算法保证了（1 + ε）的相对误差谱逼近。本研究还展示了张量分解在学习单主题建模中的应用。

Jun, 2020

一个用于图聚类的流算法

我们提出了一种新的算法，用于在单次遍历的边流设置中执行图聚类，并基于模块度函数提供了理论上的解释。我们对从一百万到十亿边的大规模现实生活图表进行实验，并展示了该算法比现有算法运行速度快十倍以上，并可在最大的图表上获得相似或更好的检测分数。

Dec, 2017