使用 TF-Ranking 中的 BERT 进行排序学习

Apr, 2020

使用 TF-Ranking 中的 BERT 进行排序学习

Learning-to-Rank with BERT in TF-Ranking

Shuguang Han, Xuanhui Wang, Mike Bendersky, Marc Najork

TL;DR该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中，采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型，取得了较之其它方法更好的排名成绩。

Abstract

This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using bert [1], and on top of that a →

machine learning bert learning-to-rank tf-ranking document ranking

发现论文，激发创造

BERT 排名行为解析

本文研究了预先训练的 BERT 在排名任务中的表现和行为，探索了在两种排名任务中优化 BERT 的几种不同方法，并实验证明了 BERT 在问题回答焦点的段落排名任务中的强有效性，以及 BERT 作为强交互式序列到序列匹配模型的事实。

Apr, 2019

BERT 的文章重新排序

本文介绍了一个基于查询的段落重排的 BERT 的简单重新实现，该系统在 TREC-CAR 数据集上处于技术先进地位，是 MS MARCO 段落检索任务排行榜中的前列，优于以前的技术领先 27%（相对于 MRR @ 10）。

Jan, 2019

BERT 的多阶段文档排名

利用 BERT 模型，在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决，这是一种终端到终端的用于搜索的系统设计，可以通过控制每个管道阶段的候选人数量来权衡质量和延迟，并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。

Oct, 2019

使用 Longformer 进行 MS MARCO 文档重排任务

本文研究了使用传统信息检索方法进行初检索，然后采用神经网络再排序模型的两步文档排序，使用了适合长文档的 BERT 模型变种 Longformer 在 MS MARCO 文档再排序任务上获得了最佳性能。

Sep, 2020

预训练变形金刚模型用于文本排名：BERT 及其它

本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题，组成了两个高级别的现代技术，即在多阶段架构中进行 reranking 的 transformer 模型和直接进行排名的密集检索技术，并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析，同时也展望了研究的未来方向。

Oct, 2020

基于创新的 Bert 重新排序语言模型在语音识别中的应用

本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设，同时融合了任务特定的全局主题信息。实验表明，相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法，本方法在 AMI 基准语料库上的有效性和可行性得到了证实。

Apr, 2021

使用预训练的序列到序列模型进行文档排名

通过对预训练序列到序列模型进行新的调整，使其能够用于文档排名任务，相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法，我们的方法在实验中展现出了更好的性能，并发现我们的方法在数据较少的情况下更能胜任。

Mar, 2020

预训练变形金刚在文本排名中的差异性如何？

本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果，发现它们在相关性概念上存在重要的差异，旨在鼓励未来改进研究。

Apr, 2022

针对电子商务非默认搜索排名的 BERT 微调

本文提出了一种基于 Bert-Large 的双阶段排序方案，首先通过精细的查询 / 标题关键词匹配检索候选商品，然后利用经过人工标注数据的 BERT-Large 进行分类，同时在多个 GPU 主机上实现并行预测和基于 Tensorflow 的 C++ 分词自定义操作。在数据挑战中，我们的模型在监督阶段的总 F1 分数上获得了第一名，在最终阶段的平均每个查询的 F1 分数上获得了第二名。

Aug, 2020

通过预先计算术语表示来提高 Transformer 的文档重新排序效率

PreTTR 算法广泛应用在各种排名任务中的预训练 transformer 网络，能够消除实践中计算昂贵的限制，提高实时排名的速度，通过训练压缩层来匹配注意力分数，可以有效地减少存储需求，而排名性能不会受到重大影响。

Apr, 2020