- MM通过 MPI 并行计算系统进行矩阵计算的密度峰聚类算法
通过使用两种向量距离矩阵和反向领先节点发现策略,我们提出了一种忠实且并行的密度峰值聚类方法,该方法能够在聚类大规模欧几里得数据时显示出优越的准确性,并且能够聚类非欧几里得数据,例如在社区检测中。
- MOOC 中的子群发现:描述不同类型学习者的大数据应用
本文采用基于 MapReduce 的子群发现方法对海量在线公开课(MOOC)中不同类型的学习者进行分类和描述,旨在发现出现在不同 MOOC 中的 IF-THEN 规则。实验结果表明,该方法优于传统的顺序子群发现方法,运行时几乎保持不变,发现 - 高效处理和传输的医学影像表达在多站点云中的应用
本文提出一种基于多重数据结构的医学图像格式表示方法,它在医学图像中保留额外的元数据信息,并使用多层神经网络定义了自己的本体论来帮助分类医学图像中的对象。此外,研究人员还在云端使用 MapReduce 范例来改善数据处理速度,同时提出了一种基 - MapReduce 模型下的子模块最优化
本文介绍了两种在 MapReduce 模型中的基数约束子模规划的简单算法,第一种算法在 2 个 MapReduce 轮中可以实现 1/2 的近似度,第二种算法可以在 1+o (1)/ε 个 MapReduce 轮中实现 1−1/e−ε 的近 - 局部收缩算法实现大规模连通性分量
该研究设计了一个分布式算法用于计算连接组件问题,并在 MapReduce 中提供了可扩展的实现。该算法在所有图形上显示 O (log n) 收敛,并对某些随机图形类具有高概率 O (log log n) 并行运行时间。在实践方面,该算法优于 - 利用 MapReduce 进行隐私保护的秘密共享计算
本文提出了基于 Shamir 秘密共享方案的数据外包算法,用 MapReduce 作为底层编程模型来执行保护隐私的 SQL 查询,防止输出大小和访问模式攻击,并在参数上评估其效率。
- 编码 MapReduce
本文介绍了一种名为 “编码 MapReduce” 的变体实现,旨在大大减少 MapReduce 的洗牌阶段中的服务器间通信负载,从而加快它的执行,并对 “编码 MapReduce” 的 “计算负载” 和 “通信负载” 之间的权衡进行分析。
- 分布式子模最大化的随机组合核心集
在此论文中,我们研究和改善了基于随机聚类的可组合核心集的构建方法,并将其应用于在计算复杂度受限制的分布式和流式处理设置下的覆盖和子模极大化问题,并采用改进的分析技术和新算法提出了首个能够在恒定轮数下打败因子 1/2 的 MapReduce - 大规模并行计算中高效 straggler 复制
本文提供了一个分析云计算任务并行执行框架中任务复制对延迟和计算资源成本的权衡的框架,通过回答设计问题,如何在什么时候复制滞后的任务,启动多少副本等。我们的分析表明,对于某些执行时间分布,少量任务复制可以显著降低延迟和计算资源的成本,并提出一 - 分布式子模最大化
本文提出了一种适用于分布式计算的子模函数最大化方法 GreeDi,该方法可在 MapReduce 框架下实现,初步实验表明该方法可应用于大规模机器学习任务中的子模优化问题,如稀疏高斯过程推断和样例聚类等问题,且在一定的自然条件下,可以达到接 - 探索性分析大容量网络语料库
本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析,总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。
- 使用 MapReduce 高效处理 k 近邻连接
本研究探讨使用 MapReduce 框架在集群上执行 KNN join 操作的机制,并提出采用聚类将对象分组的映射机制、两种算法来降低成本,旨在减少洗牌和计算成本,并进行了有效性、鲁棒性和可伸缩性的实验验证。
- KDD利用 MapReduce 进行快速聚类
本文考虑在 MapReduce 环境下设计用于处理大数据集的聚类算法,重点研究实用和流行的聚类问题,如 k-center 和 k-median,并开发具有常数因子近似保证的快速聚类算法。
- 彩色三角计数和 MapReduce 实现
该论文介绍了一种新的随机算法,可以用于计算图中三角形数量的估计,论文给出了一种专门的不等式来评估估计结果是否准确,最后提供了一个基于 MapReduce 的实现。
- 在 MapReduce 框架中的排序、搜索和模拟
本文探讨了 MapReduce 框架的算法方面,并通过设计和分析处理基本的排序、搜索和仿真问题的 MapReduce 算法展示了我们的方法的有效性。