使用大型语言模型的多条件排名

Mar, 2024

Multi-Conditional Ranking with Large Language Models

Pouya Pezeshkpour, Estevam Hruschka

TL;DR利用大型语言模型（LLMs）对一组项进行排名已成为推荐和检索系统中的常见方法。本文通过引入适用于评估各种项目类型和条件的多条件排名的基准 MCRank，对 LLMs 进行了分析，表明随着项目和条件数量以及复杂性的增长，性能显著下降。为克服这一限制，我们提出了一种新颖的分解推理方法 EXSIR，通过提取和排序条件，然后迭代地对项目进行排名，显著提高了 LLMs 的性能，达到了现有 LLMs 的 12％的改进。我们还对 LLMs 在各种条件类别下的性能进行了详细分析，检验了分解步骤的有效性。此外，我们将我们的方法与 Chain-of-Thought 和编码器类型的排名模型等现有方法进行了比较，展示了我们方法的优越性以及 MCR 任务的复杂性。我们已发布了我们的数据集和代码。

Abstract

Utilizing large language models (LLMs) to rank a set of items has become a common approach in recommendation and retrieval systems. Typically, these systems focus on ordering a substantial number of documents in a monotonic order based on a given query. However, real-world scenarios of

large language models multi-conditional ranking mcrank decomposed reasoning method llms performance

发现论文，激发创造

大型语言模型在组合性关系推理中的限制探索

通过包含 1,500 个测试案例的评估，我们在英语中全面评估了大型语言模型（LLMs）在推理组合关系方面的能力，旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。

Mar, 2024

动态生成多样性准则以改善逐点 LLM 排名器

通过多角度评估的一组标准生成排名得分的排序器显著提高了点对点大型语言模型排名器的性能。

Apr, 2024

学习丰富排序

采用基于选择建模的上下文重复选择（CRS）模型，结合多模态模型，提供了生成丰富的排名空间的工具，同时使用结构相关的尾部风险和期望风险界限，对该模型的最大似然估计提供了严格的理论保证，并且在多项式逻辑选择模型（MNL）和 Plackett-Luce（PL）排名模型的预期风险以及 PL 排名模型的尾部风险方面也提供了前所未有的紧密界限。该 CRS 模型在各种场景下明显优于现有的排名数据建模方法，包括比赛和排名投票。

Dec, 2023

大型语言模型可用于零样本推荐系统排序

此研究旨在探究大型语言模型在推荐系统中的排名能力，通过采用提示模板设计和引入特定策略，研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现，但是若考虑历史互动的顺序、位移等因素，不同的提示和启发方法能够对大型语言模型的表现产生影响。

May, 2023

基于大型语言模型的零样本列表式文档重排序

在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上，使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法，在多层文本排序任务中取得了强大的效果。

May, 2023

MrRank：通过多结果排名模型提升问答检索系统

使用学习排序技术结合不同的信息检索系统，解决大型语言模型中幻觉和过时信息的问题，提高检索问题回答任务的性能，并在 SQuAD 数据集上取得了最先进的结果。

Jun, 2024

TourRank: 利用大型语言模型进行文件排名的一种锦标赛策略

通过智能分组减轻 LLM 输入长度的限制，采用类似锦标赛的积分系统确保鲁棒的排序，我们引入了一种名为 TourRank 的新型文件排名方法，实验证明 TourRank 在合理的成本下实现了最先进的性能。

Jun, 2024

优化大型语言模型的排序器

这篇论文通过引入具有对齐的列表排名目标的语言模型框架（ALRO）来解决基于 LLMs 的推荐系统中排名任务的问题，并使用适应语言生成任务的 soft lambda loss 和解决位置偏差的置换敏感学习机制，实验证明 ALRO 优于现有的基于嵌入的推荐方法和基于 LLMs 的推荐基准。

Mar, 2024

MDCR: 多文档条件推理数据集

提出了一个新的数据集 MDCR 来评估模型在跨文档推理和优化问题上的答题能力，使用最新的 LLMs 评估了该数据集，并展示了它们在解决这个任务上的局限性。

Jun, 2024

LLM-RankFusion：基于 LLM 的排名中内在不一致问题的缓解

使用语言模型比较并排序排名的矛盾问题，我们提出了一种使用 LLM-RankFusion 的方法，它有效地减少了排序的不一致性，提高了排名质量。

May, 2024