LiNR: 在领英上基于模型的神经检索

Jul, 2024

LiNR: 在领英上基于模型的神经检索

LiNR: Model Based Neural Retrieval on GPUs at LinkedIn

Fedor Borisyuk, Qingquan Song, Mingzhou Zhou, Ganesh Parameswaran, Madhu Arun...

TL;DR该论文介绍了LinkedIn的大规模基于GPU的检索系统LiNR，该系统支持在GPU模型上进行十亿级索引。我们讨论了使用TensorFlow和PyTorch在生产规模上创建可扩展的可区分搜索索引的经验和挑战。LiNR将项目和模型权重集成到模型二进制文件中，并将索引构建视为一种模型训练形式，描述了如何扩展我们的系统以支持大规模索引，包括全扫描和高效过滤。重点是实现基于属性的预过滤以用于详尽的GPU搜索，并解决通常降低系统质量的KNN搜索中的后过滤常见挑战。我们还提供了多嵌入检索算法和策略来解决检索中的冷启动问题。我们还讨论了通过量化来支持更大索引的先进技术。我们相信LiNR是业界首个基于模型的实时更新检索索引之一。在LinkedIn Feed的网络外推荐中应用LiNR使专业日活跃用户增加了3%。我们预期LiNR是将检索和排序集成为单个GPU模型的一步，简化复杂的基础设施并通过梯度下降实现整个可区分基础设施的端到端优化。

Abstract

This paper introduces linr, LinkedIn's large-scale, gpu-based retrieval system. →

发现论文，激发创造

深度检索：学习大规模推荐系统的可检索结构

本文中介绍了 Deep Retrieval (DR) 算法，通过学习可检索结构来获取最优推荐结果，其编码所有候选项入离散潜在空间，接着使用当前模型下的光束搜索来检索前置候选项，以实现重新排名。实验证明，使用 DR 算法，在两个公共数据集上能够实现近乎于暴力基线的准确性，并且在实时生产推荐系统上，高度优化的 DR 算法显著优于 ANN 基准线。DR 是非 ANN 的推荐算法在工业推荐系统规模的首批成功部署之一。

Jul, 2020

深度学习推荐模型规模训练效率探究

本文探讨使用GPU进行推荐模型训练时所遇到的种种挑战，如模型架构参数、存储过大的嵌入表等造成的GPU性能与效率问题，同时介绍了新型GPU服务器设计Zion所带来的优势。

Nov, 2020

利用热门选择加速推荐系统训练

通过研究推荐数据的使用方式和特征，本文提出了一种称为FAE框架的热嵌入感知数据布局，利用有限的GPU内存存储高访问嵌入，以减少CPU到GPU的数据传输并加速执行，从而将推荐模型的训练时间降低了2.3倍。

Mar, 2021

面向推荐系统训练的异构加速管线

Hotline是一种数据感知和模型感知调度pipeline，它通过实现一种动态的硬件加速器和馈送到GPU的方法，通过GPU加速减少训练时间，相比于现有的CPU-GPU混合模式，Hotline平均训练时间降低了3倍，并且将整体训练吞吐量增加到每小时35.7个epochs。

Apr, 2022

大规模深度推荐模型的 GPU 专用推理参数服务器

本文介绍了HugeCTR Hierarchical Parameter Server（HPS），这是一种结合了高性能GPU嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架，可将端到端推理延迟显着降低至5-62倍，并可以通过多GPU并发部署显著提高推理QPS。

Oct, 2022

重新审视加速器上的神经检索

通过使用混合逻辑(MoL) 模型代替点积来准确表示复杂的用户-物品互动，结合 extit{ h-indexer}层级检索策略能够在单个GPU上扩展到1亿个语料库，并在公共数据集中取得了高达77.3％的命中率提高。

Jun, 2023

LiRank: 领英的工业级大规模排名模型

LiRank是LinkedIn上的一个大规模排名框架，它利用先进的建模体系结构和优化方法，实现了最新的建模改进并提出了新技术来生产化深度学习的探索/利用方法。通过训练和压缩模型，以及详细介绍Feed排名、职位推荐和广告点击率（CTR）预测的部署设置，实现了大规模使用场景的有效服务。在LinkedIn上，这些想法在各方面都有相对的指标改进。希望这项工作能为有兴趣利用大规模深度排名系统的从业者提供实用的见解和解决方案。

Feb, 2024

Fiddler: 快速推断混合专家模型的CPU-GPU编排

Fiddler 是一种资源高效的推理引擎，基于 CPU-GPU 协同工作模式用于 Mixture-of-Experts 模型，可以在资源有限的设置中，在单一GPU上运行未压缩的 Mixtral-8x7B 模型，其参数超过 90GB，每秒生成超过3个标记，相较于现有方法获得数量级的提升。

Feb, 2024

JORA：JAX 张量并行 LoRA 检索增强微调库

通过使用分布式训练，借助JAX的即时编译（JIT）和张量分片，我们引入了一种新的PEFT兼容的Llama-2模型微调框架，以有效管理资源，从而实现了加速微调并减少内存需求，从而显着改善了用于复杂RAG应用的LLM的可扩展性和可行性。

Mar, 2024

大规模语言模型的基于令牌的影响训练数据检索

提出了RapidIn框架，用于估算每个训练数据对大型语言模型生成的影响，通过缓存和检索阶段，压缩梯度向量并支持多GPU并行加速，实现了超过6326倍的加速效果。

May, 2024