通过搜索引擎和大型语言模型之间的交互进行知识细化
信息检索领域,自传统搜索开始已经发展得非常成熟,并且扩展到满足用户不同的信息需求。最近,大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力,为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索,还为用户理解、模型评估和用户系统交互提供了改进的解决方案。最重要的是,信息检索模型、大型语言模型和人类之间的相互作用形成了一个更强大的信息搜索技术范式。信息检索模型提供实时和相关的信息,大型语言模型提供内部知识,而人类在信息服务的可靠性方面起到了需求者和评估者的核心角色。然而,仍然存在一些重大挑战,包括计算成本、可信度问题、特定领域限制和伦理考虑。为了深入讨论大型语言模型对信息检索研究的变革性影响,中国信息检索界于 2023 年 4 月举办了一次战略研讨会,得出了有价值的见解。本文总结了研讨会的成果,包括对信息检索核心价值的重新思考、大型语言模型和信息检索的相互增强、一个新的信息检索技术范式的提出以及面临的挑战。
Jul, 2023
本文提出了一种使用大语言模型的通用交互式查询重写框架,旨在提高透明性和意图理解能力,并改变传统的意图理解方法;在初步实验的支撑下,通过自然语言表达、交互和推理机器意图,取得了显著的排序性能提升。
Jun, 2023
信息检索技术是一个不断发展的领域,这篇论文综述了信息检索技术的演变,重点讨论大型语言模型在传统搜索方法与新兴答案检索范式之间的桥梁作用。借助 GPT-4 等大型语言模型的整合,响应检索和索引领域正在发生范式转变,从而使用户能够更直接地与信息系统进行互动并获得语境相关的回答。通过这一探索,我们希望揭示塑造这一发展历程的技术里程碑及未来可能的方向。
Feb, 2024
本文提出了自助检索 (Self-Retrieval) 的一种端到端、以大型语言模型为驱动的信息检索架构,能够充分内化信息检索系统所需的能力到一个单一的大型语言模型,深度利用语言模型在信息检索过程中的能力。实验结果表明,自助检索不仅在很大程度上优于以前的检索方法,还能显著提升以大型语言模型为驱动的下游应用,例如检索增强生成。
Feb, 2024
本研究探索指令调优提高大型语言模型在信息检索任务中的能力,并引入了一个新的指令调优数据集,INTER,涵盖了查询理解、文档理解和查询 - 文档关系理解三个基本 IR 类别的 21 个任务。实证结果表明,INTER 显著提高了公开可用的 LLMs(如 LLaMA、Mistral 和 Phi)在搜索相关任务中的性能。
Jan, 2024
本文介绍了如何使用大型语言模型(LLMs)有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估,我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下,相比相同 LLM 的改进。通过我们的分析,我们证明了当 Adapt-LLM 确定无法回答问题时,它能生成 <RET> 标记,表明需要进行信息检索,同时当只依赖参数存储器时,其达到明显高的准确率水平。
Apr, 2024
介绍了 BIDER,通过知识合成、监督微调和偏好对齐将检索文档转化为关键支持证据(KSE),通过强化学习从 LLM 的信息获取偏好中获得最大化输出,评估结果表明 BIDER 提高了 LLM 的答案质量 7%,同时减少了检索文档中输入内容长度 80%,优于现有方法。该方法的 KSE 模拟有效地装备了 LLM 以获得准确的问题回答。
Feb, 2024
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决用户查询中表现出高达 98.8%的信息检索准确性。
May, 2024