基于大型语言模型的排序列表截断

SIGIRApr, 2024

基于大型语言模型的排序列表截断

Ranked List Truncation for Large Language Model-based Re-Ranking

Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke

TL;DR我们从新的 “检索 - 然后重新排名” 的角度研究了排名列表截取（RLT），通过对检索列表进行截断（即修剪重新排名的候选项），我们优化了重新排名。我们通过复现现有的 RLT 方法来填补这个研究空白，特别是基于大型语言模型（LLM）的重新排名。我们从三个角度考察了在 “检索 - 然后重新排名” 设置下针对 LLM 重新排名的 RLT 方法，分别是评估 LLM 基于词汇的第一阶段检索下的 RLT 方法、研究不同类型的第一阶段检索器对 RLT 方法的影响以及研究不同类型的重新排名器对 RLT 方法的影响。我们在 TREC 2019 和 2020 深度学习环节上进行实验，研究 8 种 RLT 方法在涉及 3 个检索器和 2 个重新排名器的流水线上的表现，并对 RLT 方法在重新排名的背景下得出了新的见解。

Abstract

We study ranked list truncation (RLT) from a novel "retrieve-then-re-rank" perspective, where we optimize re-ranking by truncating the ret

ranked list truncation retrieve-then-re-rank re-ranking large language model trec

发现论文，激发创造

搜索和检索增强生成的列表感知重排序 - 截断联合模型

我们提出了一个联合模型（GenRT），通过生成式编码 - 解码结构将重新排序和截断这两个任务同时进行，从而解决了信息检索中重新排序和截断任务之间的问题。实验证明，我们的方法在网络搜索和检索增强的大语言模型上的重新排序和截断任务均达到了最佳表现。

Feb, 2024

基于大型语言模型的零样本列表式文档重排序

在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上，使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法，在多层文本排序任务中取得了强大的效果。

May, 2023

HLATR：混合列表感知的 Transformer 重排序加强多阶段文本检索

本文提出 HLATR 作为一个轻量级的后续 reranking 模块，将检索和 reranking 阶段的特征结合起来，可以有效提高现有的多阶段文本检索方法的排名性能。

May, 2022

TourRank: 利用大型语言模型进行文件排名的一种锦标赛策略

通过智能分组减轻 LLM 输入长度的限制，采用类似锦标赛的积分系统确保鲁棒的排序，我们引入了一种名为 TourRank 的新型文件排名方法，实验证明 TourRank 在合理的成本下实现了最先进的性能。

Jun, 2024

基于大型语言模型的自然语言生成从逻辑形式的重新排序研究

通过提出一种新颖的生成和重新排序的方法，本研究强调大型语言模型在自然语言生成中的出色能力，并解决了从逻辑形式（LFs）生成自然语言时遇到的一些问题，该方法能够提高生成输出的语义一致性和流畅性，经过多项实验验证了其有效性。

Sep, 2023

检索增强大型语言模型的查询重写

该研究介绍了一个新的 Rewrite-Retrieve-Read 框架，该框架从查询重写的角度改进了检索增强方法，并通过强化学习调整该框架的策略模型，通过开放域 QA 等下游任务进行了验证。

May, 2023

RLTM: 一种针对长文档的高效神经信息检索框架

提出了一种新的端到端神经排序框架 —— RLTM，它可以高效地匹配长文档，并且通过强化学习的方法在成对的样例间最大化正负例间的得分差距，从而显著提高了现有模型的效率和有效性。

Jun, 2019

无需真实标准的大型语言模型排名

大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Feb, 2024

逐步重新排序：研究大型语言模型的预过滤重新排序

使用人工生成的相关性评分和 LLM 相关性评分，在对信息检索进行重新排序之前进行预过滤，能够有效地过滤掉不相关的段落，并使较小模型如 Mixtral 能够与更大的专有模型（如 ChatGPT 和 GPT-4）具有竞争力。

Jun, 2024

Rank-without-GPT: 基于开源大型语言模型构建独立的 GPT - 无关的列表排序器

通过消除对 GPT 模型的依赖，本研究首次构建了有效的零阶科学可复现性的无需 GPT 依赖的排序器，能够在通行回收实验中表现出 13% 超越基于 GPT-3.5 的排序器，并达到了基于 GPT-4 构建的排序器的 97% 有效性。研究结果还显示，现有的点对点排序训练数据对于构建此类基于列表的排序器是不足够的，需要高质量的基于列表的排序数据，呼吁进一步建立人工标注的列表数据资源。

Dec, 2023