本文描述了一种使用最新的中文预训练语言模型 ERNIE 开发和部署检索系统的方法,并通过离线和在线实验表明该系统性能良好,特别是对于那些查询需求不常见的查询,该检索系统可以大大提高搜索引擎的易用性和适用性。
Jun, 2021
本文研究了使用预训练语言模型(PLMs)来进行搜索排名时遇到的两个问题:训练模式和任务知识之间的差距。我们提出了一种称为 P³ Ranker 的模型,该模型使用基于提示的学习将排名任务转换为预训练模式,并使用预训练初始化模型,以尽可能少的数据实现适应该任务,并在 MS MARCO 和 Robust04 上表现出优异的表现,可用于 data-efficient 的 PLM 适应。
May, 2022
本文介绍了使用预训练语言模型进行个性化新闻推荐的方法,通过离线实验结果表明,该方法在英语和全球市场上都取得了显著的点击和页面查看量的提高,关键词包括个性化新闻推荐、文本建模、预训练语言模型、新闻建模和离线实验结果。
Apr, 2021
本文介绍了为改善百度地图上的地理相关任务而设计和开发的基于地理和语言预训练模型 ERNIE-GeoL,通过对一个包含大量地理知识的异构图中生成的大规模数据进行预训练,ERNIE-GeoL 得以学习地理 - 语言的通用表示,并且已自 2021 年 4 月起在百度地图的生产环境中部署,有效提升了各种地理相关任务的性能,从而证明了 ERNIE-GeoL 可作为广泛用于地理相关任务的基础。
Mar, 2022
通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。实验证明,当训练目标与评估设置一致时,Neural PG-RANK 在领域内表现出卓越的性能提升,并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。
Oct, 2023
本文提出了一种方法,旨在通过集成先验知识和先前训练的语言模型来辅助实现从外部来源获取信息和检索正确文件的目标,在两个生物医学领域的数据集上的实验表明,该方法显著提高了文档重新排序任务的效果。
May, 2023
本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR),通过使用适当的排名提示,减少了 LLMs 的负担,使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。
Jun, 2023
该研究论文主要讨论了信息检索中的排名模型如何应用传统启发式方法、概率方法和现代机器学习技术等技术构建,并重点介绍了基于浅层或深层神经网络的神经排名模型,分析了其基本原理和学习策略,并通过基准测试比较了这些模型,最后探讨了当前文献中存在的问题以及未来的发展方向。
Mar, 2019
本文研究了将预训练语言模型应用于传统推荐算法中对电子商务数据集的影响,并将结果与基准模型进行了比较。通过领域特定的微调,将 PLMs 应用于传统推荐算法中可以提高模型的预测能力。这些结果凸显了在电子商务环境中利用文本信息的重要性,并提供了更好地应用 PLMs 的见解。
Feb, 2023
ERNIE 团队在 SemEval-2020 的任务 10 中取得第一名,提出了一种利用无监督预训练模型并在任务中进行微调的方法来寻找给定句子中最重要的单词,并证明这种方法可以通过额外的特征工程和数据增强来提高表现。最终他们的模型取得了 0.823 的最高分,在所有指标上位居第一。
Sep, 2020