数据流中的双聚类和布尔矩阵分解
我们提出了一种新的算法,用于在单次遍历的边流设置中执行图聚类,并基于模块度函数提供了理论上的解释。我们对从一百万到十亿边的大规模现实生活图表进行实验,并展示了该算法比现有算法运行速度快十倍以上,并可在最大的图表上获得相似或更好的检测分数。
Dec, 2017
本文研究如何针对重叠聚类进行双分图可视化问题,并提出能够满足近距离聚类元素、连续区域聚类元素和大范围不间断设计限制的目标函数和算法,并在实际数据集上进行实验,发现最佳结果采用局部放置相似聚类成员行列的新型启发式算法。
Jul, 2023
通过图模型和传递信息的方法,本文提出一种处理布尔矩阵分解和噪声下的布尔矩阵完成的方法,可线性处理观察点和因子数量,实验结果表明该方法在实际应用中可以较好地恢复低秩布尔矩阵。
Sep, 2015
本研究开发了一种名为 MEBF 的快速、高效的布尔矩阵因式分解方法,采用启发式方法以定位 “密集的 1” 的子矩阵为目标,其性能表现优于 ASSO、PANDA 和 MP 等其他常用方法,同时在二进制和非二进制数据集上的应用表明其具有知识检索和数据去噪的潜在能力。
Sep, 2019
本文提出了一种基于分割二分图的新型数据聚类方法,旨在最小化未匹配的顶点之间的边权重总和,通过边权重矩阵的奇异值分解来近似解决这个最小化问题并且在文档聚类问题上取得了显著的效果。
Aug, 2001
介绍了一种概率生成模型 ——OrMachine,用于布尔矩阵分解和推导出马尔科夫链蒙特卡罗 (Metropolised Gibbs) 采样器,实现了高效的并行后验推断,并在真实世界和模拟数据上优于目前所有现有的布尔矩阵分解和完整方法,首次为布尔矩阵分解提供了完整的后验推断,在协同过滤中用于控制假阳性率,并关键地提高了推断模式的可解释性。提出的算法在通用硬件上扩展到大型数据集,如在 1.3 百万只老鼠脑细胞上分析 11 千个基因的单细胞基因表达。
Feb, 2017
本文研究了常量内存和具有单个传递特性的分布式算法与两个阶段随机算法之间的比较,以及分布式计算,过采样和内存权衡对这两种算法的准确性和性能的影响,使用的实际数据是英文维基百科的全部内容,在 Latent Semantic Analysis 应用中。
Feb, 2011
本文通过线性规划和列生成的优化技术,提出了一种求解低秩二元矩阵分解问题的算法,该算法不需要使用启发式模式挖掘,具有高精度和优化保证,并在真实数据集上取得了良好的效果。
Nov, 2020
本文提出了一种基于项目投影的共同聚类算法,以解决处理双向图时向量空间模型表现的问题。通过在聚类检索任务中测试,该算法能够产生平衡良好的聚类和相关项目,并导致高的检索得分。
Sep, 2021
本文概述了 Boolean Matrix Factorization(BMF)在数据挖掘、正式概念分析、机器学习和理论等领域的研究进展,提出了需要进一步探讨的问题。
Dec, 2020