用于段落重新排名的更新 Duet 模型
本文介绍了一个基于查询的段落重排的 BERT 的简单重新实现,该系统在 TREC-CAR 数据集上处于技术先进地位,是 MS MARCO 段落检索任务排行榜中的前列,优于以前的技术领先 27%(相对于 MRR @ 10)。
Jan, 2019
通过对 MS MARCO 段落重新排序数据集的实证研究,分析 fine-tuned BERT 模型的结果,探讨 BERT 在检索方面成功和失败的潜在原因及其性能中 成功的细节
May, 2019
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
Mar, 2020
提出一种新颖的联合训练方法,将密集型段落检索和段落重新排名进行联合优化,其中动态列表蒸馏、混合数据增强策略和列表训练方法等对于检索和重新排名均具有显著的贡献,实验结果表明该方法在 MSMARCO 和自然问题数据集上具有有效性。
Oct, 2021
该研究介绍了 mMARCO,使用机器翻译创建的包含 13 种语言的 MS MARCO 段落排名数据集的多语言版本,并评估了针对该数据集的多语言重新排名模型和稠密检索模型的效果。研究者们还在零 - shot 场景下使用 mMARCO 数据集微调了模型,在 Mr.TyDi 数据集上展示了多语言模型相对于仅使用英文原版的模型的更高效性。这个研究也表明,翻译质量的提高与检索效果相关,为提高多语版信息检索的效果提供了理论支持。
Aug, 2021
本文提出了一种新的长文档重新排序方法,通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型,避免了编码过程中低维度表示带来的信息瓶颈,实现了从全部文档中提取重要信息的目的,并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。
May, 2022
本研究综合评估了 13 个模型在排名长文档方面的功能,包括两种专用 Transformer 模型,同时分析了训练和比较这些模型的几个困难。结果表明,虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试,但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时,Simple FirstP Baseline 很有效。
Jul, 2022