BERT 排名行为解析
通过对 MS MARCO 段落重新排序数据集的实证研究,分析 fine-tuned BERT 模型的结果,探讨 BERT 在检索方面成功和失败的潜在原因及其性能中 成功的细节
May, 2019
该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中,采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型,取得了较之其它方法更好的排名成绩。
Apr, 2020
本研究分析了基于 BERT 的交叉编码器与传统 BM25 排名在段落检索任务中的效果,发现它们在相关性概念上存在重要的差异,旨在鼓励未来改进研究。
Apr, 2022
利用 BERT 模型,在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决,这是一种终端到终端的用于搜索的系统设计,可以通过控制每个管道阶段的候选人数量来权衡质量和延迟,并在 MS MARCO 和 TREC CAR 数据集上提供了与现有技术相当或更好的结果。
Oct, 2019
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
Mar, 2020
本文介绍了一个基于查询的段落重排的 BERT 的简单重新实现,该系统在 TREC-CAR 数据集上处于技术先进地位,是 MS MARCO 段落检索任务排行榜中的前列,优于以前的技术领先 27%(相对于 MRR @ 10)。
Jan, 2019
本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题,组成了两个高级别的现代技术,即在多阶段架构中进行 reranking 的 transformer 模型和直接进行排名的密集检索技术,并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析,同时也展望了研究的未来方向。
Oct, 2020
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
本文研究了使用传统信息检索方法进行初检索,然后采用神经网络再排序模型的两步文档排序,使用了适合长文档的 BERT 模型变种 Longformer 在 MS MARCO 文档再排序任务上获得了最佳性能。
Sep, 2020
本研究探索了将 BERT 应用于问答的成功之后简单应用于特定文档检索的方法,并通过将推理应用于单个句子,然后将它们的得分汇总以产生文档得分来解决文档比 BERT 输入限制更长的挑战,实验证明,我们的方法虽然简单但有效,报告了我们所知道的使用神经方法在 TREC 微型博客和新闻线路测试集上的最高平均精度。
Mar, 2019