基于预训练语言模型的百度搜索排名

KDDMay, 2021

基于预训练语言模型的百度搜索排名

Pre-trained Language Model based Ranking in Baidu Search

Lixin Zou, Shengqiang Zhang, Hengyi Cai, Dehong Ma, Suqi Cheng...

TL;DR本文介绍了将预训练语言模型（PLMs）引入搜索引擎的相关技术及其在实际应用中所面临的问题，使用 ERINE 语言模型以及创新的预训练策略、调整排列信号的方法，成功提高搜索引擎的性能。

Abstract

As the heart of a search engine, the ranking system plays a crucial role in satisfying users' information demands. More recently, neural rankers<

search engine ranking system pre-trained language models neural rankers online ranking system

发现论文，激发创造

百度搜索中用于 Web 规模检索的预训练语言模型

本文描述了一种使用最新的中文预训练语言模型 ERNIE 开发和部署检索系统的方法，并通过离线和在线实验表明该系统性能良好，特别是对于那些查询需求不常见的查询，该检索系统可以大大提高搜索引擎的易用性和适用性。

Jun, 2021

P^3 Ranker：基于提示学习和预微调的缓解预训练和排名微调之间差距方法

本文研究了使用预训练语言模型（PLMs）来进行搜索排名时遇到的两个问题：训练模式和任务知识之间的差距。我们提出了一种称为 P³ Ranker 的模型，该模型使用基于提示的学习将排名任务转换为预训练模式，并使用预训练初始化模型，以尽可能少的数据实现适应该任务，并在 MS MARCO 和 Robust04 上表现出优异的表现，可用于 data-efficient 的 PLM 适应。

May, 2022

利用预训练语言模型增强新闻推荐

本文介绍了使用预训练语言模型进行个性化新闻推荐的方法，通过离线实验结果表明，该方法在英语和全球市场上都取得了显著的点击和页面查看量的提高，关键词包括个性化新闻推荐、文本建模、预训练语言模型、新闻建模和离线实验结果。

Apr, 2021

ERNIE-GeoL: 一种地理和语言预训练模型及其在百度地图中的应用

本文介绍了为改善百度地图上的地理相关任务而设计和开发的基于地理和语言预训练模型 ERNIE-GeoL，通过对一个包含大量地理知识的异构图中生成的大规模数据进行预训练，ERNIE-GeoL 得以学习地理 - 语言的通用表示，并且已自 2021 年 4 月起在百度地图的生产环境中部署，有效提升了各种地理相关任务的性能，从而证明了 ERNIE-GeoL 可作为广泛用于地理相关任务的基础。

Mar, 2022

语言模型的策略梯度训练方法用于排名

通过利用大规模预训练语言模型，我们引入了一种名为 Neural PG-RANK 的新型训练算法，该算法通过实例化一个语言模型为 Plackett-Luce 排序策略，为检索模型的端到端训练提供了一种合理的方法，并有效地将训练目标与下游决策质量相统一。实验证明，当训练目标与评估设置一致时，Neural PG-RANK 在领域内表现出卓越的性能提升，并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。

Oct, 2023

基于引导式知识融合的生物医学文档再排序语言模型强化

本文提出了一种方法，旨在通过集成先验知识和先前训练的语言模型来辅助实现从外部来源获取信息和检索正确文件的目标，在两个生物医学领域的数据集上的实验表明，该方法显著提高了文档重新排序任务的效果。

May, 2023

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

深入研究信息检索中的神经排名模型

该研究论文主要讨论了信息检索中的排名模型如何应用传统启发式方法、概率方法和现代机器学习技术等技术构建，并重点介绍了基于浅层或深层神经网络的神经排名模型，分析了其基本原理和学习策略，并通过基准测试比较了这些模型，最后探讨了当前文献中存在的问题以及未来的发展方向。

Mar, 2019

利用预训练语言模型和微调增强电子商务推荐

本文研究了将预训练语言模型应用于传统推荐算法中对电子商务数据集的影响，并将结果与基准模型进行了比较。通过领域特定的微调，将 PLMs 应用于传统推荐算法中可以提高模型的预测能力。这些结果凸显了在电子商务环境中利用文本信息的重要性，并提供了更好地应用 PLMs 的见解。

Feb, 2023

SemEval-2020 任务 10 中 ERNIE：使用预训练语言模型学习词汇强调选择

ERNIE 团队在 SemEval-2020 的任务 10 中取得第一名，提出了一种利用无监督预训练模型并在任务中进行微调的方法来寻找给定句子中最重要的单词，并证明这种方法可以通过额外的特征工程和数据增强来提高表现。最终他们的模型取得了 0.823 的最高分，在所有指标上位居第一。

Sep, 2020