基于大型语言模型的零样本列表式文档重排序
通过消除对 GPT 模型的依赖,本研究首次构建了有效的零阶科学可复现性的无需 GPT 依赖的排序器,能够在通行回收实验中表现出 13% 超越基于 GPT-3.5 的排序器,并达到了基于 GPT-4 构建的排序器的 97% 有效性。研究结果还显示,现有的点对点排序训练数据对于构建此类基于列表的排序器是不足够的,需要高质量的基于列表的排序数据,呼吁进一步建立人工标注的列表数据资源。
Dec, 2023
我们介绍了 RankVicuna,它是第一个完全开源的大型语言模型,能够在零样本情况下进行高质量的列表排序。在 TREC 2019 和 2020 深度学习跟踪的实验结果显示,我们可以使用比 GPT-3.5 小得多的 7B 参数模型达到与零样本重新排序相当的有效性,尽管我们的有效性略低于 GPT-4 重新排序。我们希望我们的工作为未来关于使用现代大型语言模型进行重新排序的研究提供基础。我们的全部代码以供重现结果,请访问此 https URL。
Sep, 2023
研究表明,大型语言模型在各种文档重新排序任务中展现了令人印象深刻的零样本能力。本研究探讨了大型语言模型在非洲语言的跨语言信息检索系统中的重新排序效果,研究结果显示,跨语言重新排序的效果可能与语言模型的多语言能力相关,且在英语中重新排序仍然最为有效。
Dec, 2023
这篇论文通过引入具有对齐的列表排名目标的语言模型框架(ALRO)来解决基于 LLMs 的推荐系统中排名任务的问题,并使用适应语言生成任务的 soft lambda loss 和解决位置偏差的置换敏感学习机制,实验证明 ALRO 优于现有的基于嵌入的推荐方法和基于 LLMs 的推荐基准。
Mar, 2024
大型语言模型在零样本文档排序任务中展现出令人印象深刻的效果,本研究通过在一致的实验框架下全面评估 Pointwise、Pairwise 和 Setwise 提示方法,考虑模型大小、令牌消耗、延迟等因素,找出各方法之间存在的效果和效率之间的权衡。我们发现,尽管 Pointwise 方法在效率上得分较高,但效果较差;相反,Pairwise 方法在效果上表现出色,但计算开销较大。为了进一步提高基于大型语言模型的零样本排序的效率,我们提出了一种新颖的 Setwise 提示方法,通过减少排名过程中的 LLM 推理次数和提示令牌的消耗量,显著提高了基于大型语言模型的零样本排序的效率。我们使用 TREC DL 数据集和 BEIR 零样本文档排序基准测试了我们的方法,实证结果表明我们的方法在大幅减少计算成本的同时,同时保持了较高的零样本排序效果。
Oct, 2023
该论文提出了一种简单的方法,使用大规模语言模型作为信息检索的检索器,从而在零 - shot 场景下提高检索效率。该方法通过在检索词和其他相关域内候选之间进行组合,来辅助语言模型生成更精确的答案,使得检索更加透明,从而实现竞争力更强的检索结果。
Apr, 2023
此研究旨在探究大型语言模型在推荐系统中的排名能力,通过采用提示模板设计和引入特定策略,研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现,但是若考虑历史互动的顺序、位移等因素,不同的提示和启发方法能够对大型语言模型的表现产生影响。
May, 2023
通过提出一种新颖的生成和重新排序的方法,本研究强调大型语言模型在自然语言生成中的出色能力,并解决了从逻辑形式(LFs)生成自然语言时遇到的一些问题,该方法能够提高生成输出的语义一致性和流畅性,经过多项实验验证了其有效性。
Sep, 2023
本研究针对最近的大型语言模型探究了原本的零样本排名效果,发现这些仅基于非结构化文本数据进行预训练且没有经过监督指导微调的模型具备强大的零样本排名能力。此外,我们还提出了一个新颖的最先进排名系统,将基于大型语言模型的查询似然模型与混合式零样本检索器相结合,无论是在零样本还是少样本场景下都表现出卓越的效果。我们在 this https URL 上公开了我们的代码库。
Oct, 2023
通过智能分组减轻 LLM 输入长度的限制,采用类似锦标赛的积分系统确保鲁棒的排序,我们引入了一种名为 TourRank 的新型文件排名方法,实验证明 TourRank 在合理的成本下实现了最先进的性能。
Jun, 2024