Apache Spark 中的大规模网络嵌入

KDDJun, 2021

Large-Scale Network Embedding in Apache Spark

Wenqing Lin

TL;DR本文提出了一种使用 Apache Spark 的高效有效的分布式算法，用于处理大型网络嵌入问题，并在朋友推荐和物品推荐的场景中展示了该算法的高效性和性能。

Abstract

network embedding has been widely used in social recommendation and network analysis, such as recommendation systems and anomaly detection with graphs. However, most of previous approaches cannot handle

network embedding distributed algorithm large graphs apache spark recommendation systems

发现论文，激发创造

大规模信息网络嵌入

本文提出了一种新的网络嵌入方法 LINE，用于将大规模的信息网络嵌入到低维向量空间中，实现了节点分类，链路预测等任务。该方法优化了一个经过精心设计的目标函数，可以保留本地和全局网络结构，并提出了边缘采样算法，改进了经典随机梯度下降的限制和推理效率。经验证明了 LINE 在包括语言网络、社交网络和引用网络在内的各种真实世界的信息网络上的有效性。对于单个典型机器，该算法非常高效，可以在数小时内学习具有数百万个顶点和数十亿个边的网络嵌入。

Mar, 2015

大规模知识图谱嵌入的硬件不相关计算

开发了一种基于 DASK、Pytorch Lightning 和 Hugging Face 框架的知识图谱嵌入计算框架，能够以硬件无关的方式计算大规模知识图谱的嵌入表示，并提供了一个开源版本的框架以及一个具有超过 11.4B 参数的预训练模型的集线器。

Jul, 2022

知识图谱嵌入模型的扩展

为训练图神经网络中的知识图嵌入模型提供可扩展解决方案，其中算法策略包括独立分区、基于约束的负样本采样和边缘小批量训练，以避免跨分区数据传输，具有 16 倍的加速效果，而模型性能与非分布式方法相当。

Jan, 2022

海量社交图快速可扩展分析

本研究旨在探讨如何在当今大规模图形上开展可扩展性的图形处理，提出了一种新的图形坐标系统的设计空间，即通过将图嵌入到坐标空间的方式精确地近似节点距离，从而实现常数时间内的距离查询和最短路径查询，在 43 百万个节点的图中能提供更准确的结果，且可以很容易地扩展到定位节点对之间的最短路径，解决了大规模图形分析的难题。

Jul, 2011

用于 Web 规模推荐系统的图卷积神经网络

本文描述了一种在 Pinterest 上开发和部署的大规模深度推荐引擎 PinSage，它结合了高效的随机游走和图卷积来生成节点嵌入，并且使用数据驱动方法对其进行了训练。与先前的方法相比，PinSage 可以使计算更加高效并在离线指标、用户研究和 A/B 测试中生成更高质量的推荐。

Jun, 2018

SparkNet: 在 Spark 中训练深度神经网络

SparkNet 是一个在 Spark 上训练深度网络的框架，采用简单的并行随机梯度下降方法，具有良好的可扩展性和高延迟通信容忍度，易于部署和使用，可与现有 Caffe 模型兼容，并针对 ImageNet 数据集进行了性能基准测试。

Nov, 2015

基于图分割的网络嵌入初始化方法

本文针对网络嵌入中的初始化问题进行了研究，提出了一种基于图划分技术和抽象图构建的嵌入初始化方法，可以显著提高最新算法在链接预测和节点分类中的表现并减少运行时间。

Aug, 2019

分布式草图缩放图聚类

该研究使用基于矩阵草图的方法来解决在大规模图分析中传统方法遇到的挑战，尤其是无监督学习的社区结构划分问题，实验表明该方法在分配内存中可以获得出色的聚类效果，同时提高了聚类速度。

Jul, 2020

基于图度量嵌入的快速图算法

本文介绍一种学习图嵌入的简单、有效方法，通过密集向量表示来近似节点之间的距离，以反映用户定义的图距离度量，避免了直接在图结构上进行操作引起的低效性，证明该方法在语义相似性和词义消歧任务上的表现比其他图嵌入方法更优秀，同时在 WordNet 和两个知识库图上进行了评估。

Jun, 2019

使用随机游走的稀疏近似进行网络嵌入

提出一种基于交通时间的网络嵌入的高效数值实现，使用扩散小波算法得到的网络上的扩散过程的稀疏逼近。通过随机梯度下降法，并对绿函数的低维表示进行采样，计算节点嵌入，并通过多个示例展示了该方法在数据聚类和多标签分类方面的有效性，并比较了其在效率和准确性方面相对于现有方法的性能。还讨论了理论问题来证明该方案的合理性。

Aug, 2023