TourRank: 利用大型语言模型进行文件排名的一种锦标赛策略
此研究旨在探究大型语言模型在推荐系统中的排名能力,通过采用提示模板设计和引入特定策略,研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现,但是若考虑历史互动的顺序、位移等因素,不同的提示和启发方法能够对大型语言模型的表现产生影响。
May, 2023
利用 Large Language Models(LLMs)实现了文本重新排名,并通过预算约束方法中的预测策略、预算分配和 LLM APIs 的选择,提出了一种高效的文本重新排名方法 EcoRank,实验结果表明其优于其他预算感知的监督和非监督基准方法。
Feb, 2024
在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上,使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法,在多层文本排序任务中取得了强大的效果。
May, 2023
大型语言模型在零样本文档排序任务中展现出令人印象深刻的效果,本研究通过在一致的实验框架下全面评估 Pointwise、Pairwise 和 Setwise 提示方法,考虑模型大小、令牌消耗、延迟等因素,找出各方法之间存在的效果和效率之间的权衡。我们发现,尽管 Pointwise 方法在效率上得分较高,但效果较差;相反,Pairwise 方法在效果上表现出色,但计算开销较大。为了进一步提高基于大型语言模型的零样本排序的效率,我们提出了一种新颖的 Setwise 提示方法,通过减少排名过程中的 LLM 推理次数和提示令牌的消耗量,显著提高了基于大型语言模型的零样本排序的效率。我们使用 TREC DL 数据集和 BEIR 零样本文档排序基准测试了我们的方法,实证结果表明我们的方法在大幅减少计算成本的同时,同时保持了较高的零样本排序效果。
Oct, 2023
本研究针对最近的大型语言模型探究了原本的零样本排名效果,发现这些仅基于非结构化文本数据进行预训练且没有经过监督指导微调的模型具备强大的零样本排名能力。此外,我们还提出了一个新颖的最先进排名系统,将基于大型语言模型的查询似然模型与混合式零样本检索器相结合,无论是在零样本还是少样本场景下都表现出卓越的效果。我们在 this https URL 上公开了我们的代码库。
Oct, 2023
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证 AI 研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的 AI 研究自动化工作提供了有价值的指导。
Jun, 2024
这篇论文通过引入具有对齐的列表排名目标的语言模型框架(ALRO)来解决基于 LLMs 的推荐系统中排名任务的问题,并使用适应语言生成任务的 soft lambda loss 和解决位置偏差的置换敏感学习机制,实验证明 ALRO 优于现有的基于嵌入的推荐方法和基于 LLMs 的推荐基准。
Mar, 2024
本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR),通过使用适当的排名提示,减少了 LLMs 的负担,使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。
Jun, 2023
通过提出一种新颖的生成和重新排序的方法,本研究强调大型语言模型在自然语言生成中的出色能力,并解决了从逻辑形式(LFs)生成自然语言时遇到的一些问题,该方法能够提高生成输出的语义一致性和流畅性,经过多项实验验证了其有效性。
Sep, 2023
提出了一种新的端到端神经排序框架 —— RLTM,它可以高效地匹配长文档,并且通过强化学习的方法在成对的样例间最大化正负例间的得分差距,从而显著提高了现有模型的效率和有效性。
Jun, 2019