重新思考大规模预排名系统：整条链跨领域模型

Oct, 2023

重新思考大规模预排名系统：整条链跨领域模型

Rethinking Large-scale Pre-ranking System: Entire-chain Cross-domain Models

Jinbo Song, Ruoran Huang, Xinyang Wang, Wei Huang, Qian Yu...

TL;DR通过引入整个链式样本空间依赖，本文提出了一种名为 ECM 的整体链式跨领域模型，用于解决预排序系统中样本选择偏差问题，并设计了一种名为 ECMM 的细粒度神经结构，进一步提高预排序的准确性。实证评估结果表明，我们的预排序模型在实时大规模流量日志中表现优于最先进的方法，在可接受的时间消耗内实现了效率和效果的更好平衡。

Abstract

Industrial systems such as recommender systems and online advertising, have been widely equipped with multi-stage architectures, which are divided into several cascaded modules, including matching, →

recommender systems online advertising pre-ranking sample selection bias neural network

发现论文，激发创造

COLD: 迈向下一代预排序系统

本文提出了 COLD 算法，通过联合优化预排名模型和所需的计算量，在不损失模型性能的前提下，控制计算成本，实现了优异的性能表现。该算法可以广泛应用于推荐系统和在线广告等领域。

Jul, 2020

为在线广告设计的一种面向一致性的预排名算法

提出了一种面向在线广告的一致性预排名框架，包括使用基于块的采样模块和即插即用的等级对齐模块，显式地优化 ECPM 排名结果的一致性。

Jun, 2023

优化电子商务搜索：朝向可泛化和排名一致的预排序模型

在大型电子商务平台中，搜索系统通常由一系列模块组成，其中包括召回、预排序和排序阶段。我们提出了一种新颖的方法：一种具有一般化和秩次一致性的预排序模型（GRACE），通过引入多个二分类任务来预测产品是否在排名模型估计的前 k 个结果中，从而实现排名的一致性，并通过预训练对所有产品的对比学习来实现一般化。实验证明，在离线度量和在线 A/B 测试中都取得了显著的改进：AUC 增加了 0.75％，CVR 增加了 1.28％。

May, 2024

PIER: 电子商务中基于兴趣的置换级端到端重新排序框架

本研究提出了名为 PIER 的新型端到端重新排序框架，采用两个主要模块 FPSM 和 OCPM，分别基于 SimHash 和全向注意机制提高重新排名效果，实验证明其在公共和工业数据集上均优于基线模型，已成功部署在美团外卖平台。

Feb, 2023

操作型电子商务搜索的级联排序

在大规模电商搜索应用中，本文设计并部署了一种新型的级联排序模型，解决了实际搜索应用中多种用户体验、计算费用等约束条件的问题，有效提高了搜索效率和用户体验。

Jun, 2017

朝着更好的排名一致性迈进：用于早期广告排名的多任务学习框架

我们提出了一个多任务学习框架，用于早期阶段排名以捕获多个最终阶段排名组件和它们的任务关系，实现广告召回率和排名一致性的改进。通过模型整合，我们不仅可以实现成本节约，还可以在大规模工业广告排名系统中实现显著更高的点击率、转化率、总价值和更好的广告质量效果。

Jul, 2023

自适应神经排序框架：面向级联排序系统的最大化业务目标

级联排序在在线广告和推荐系统中被广泛应用于大规模前 k 选择问题，而学习排序是优化级联排序系统模型的重要方法；本文提出了一种新颖的适应级联排序系统的优化目标的方法，通过多任务学习框架自适应地结合放松和完整优化目标的优化；并且引入置换矩阵表示排序度量，并使用可微排序技术获得带有可控逼近误差界限的放松置换矩阵，从而在深度学习框架内直接且适当地优化放松和完整优化目标，通过提出的代理损失进行；实验证明了方法的有效性和泛化性，并且在线实验表明了方法的显著应用价值。

Oct, 2023

多领域语言模型高效预训练的实证研究

通过在多个领域进行预训练和弹性权重整合，可以提高通用和医学任务的性能。

Oct, 2020

冷启动场景下的统一搜索和推荐基础模型

在现代商业搜索引擎和推荐系统中，数据来自多个领域被用于联合训练多领域模型。使用大型语言模型，提出了一种名为 S&R Multi-Domain Foundation 的新型框架，其中利用 LLM 提取领域不变的文本特征，并使用 Aspect Gating Fusion 将 ID 特征、领域不变的文本特征和任务特异性稀疏特征合并以获得查询和项的表示。同时，使用领域自适应多任务模块联合训练来自多个搜索和推荐场景的样本，获得多领域基础模型。将 S&R Multi-Domain Foundation 模型应用于冷启动场景中，以 pretrain-finetune 方式取得比其他 SOTA 迁移学习方法更好的性能。S&R Multi-Domain Foundation 模型已成功部署在支付宝移动应用的在线服务中，如内容查询推荐和服务卡片推荐等。

Sep, 2023

基于预训练语言模型的百度搜索排名

本文介绍了将预训练语言模型（PLMs）引入搜索引擎的相关技术及其在实际应用中所面临的问题，使用 ERINE 语言模型以及创新的预训练策略、调整排列信号的方法，成功提高搜索引擎的性能。

May, 2021