为高效、个性化信息检索调整语言模型的方法与影响
信息检索领域,自传统搜索开始已经发展得非常成熟,并且扩展到满足用户不同的信息需求。最近,大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力,为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索,还为用户理解、模型评估和用户系统交互提供了改进的解决方案。最重要的是,信息检索模型、大型语言模型和人类之间的相互作用形成了一个更强大的信息搜索技术范式。信息检索模型提供实时和相关的信息,大型语言模型提供内部知识,而人类在信息服务的可靠性方面起到了需求者和评估者的核心角色。然而,仍然存在一些重大挑战,包括计算成本、可信度问题、特定领域限制和伦理考虑。为了深入讨论大型语言模型对信息检索研究的变革性影响,中国信息检索界于 2023 年 4 月举办了一次战略研讨会,得出了有价值的见解。本文总结了研讨会的成果,包括对信息检索核心价值的重新思考、大型语言模型和信息检索的相互增强、一个新的信息检索技术范式的提出以及面临的挑战。
Jul, 2023
本文介绍了如何使用大型语言模型(LLMs)有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估,我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下,相比相同 LLM 的改进。通过我们的分析,我们证明了当 Adapt-LLM 确定无法回答问题时,它能生成 <RET> 标记,表明需要进行信息检索,同时当只依赖参数存储器时,其达到明显高的准确率水平。
Apr, 2024
信息检索技术是一个不断发展的领域,这篇论文综述了信息检索技术的演变,重点讨论大型语言模型在传统搜索方法与新兴答案检索范式之间的桥梁作用。借助 GPT-4 等大型语言模型的整合,响应检索和索引领域正在发生范式转变,从而使用户能够更直接地与信息系统进行互动并获得语境相关的回答。通过这一探索,我们希望揭示塑造这一发展历程的技术里程碑及未来可能的方向。
Feb, 2024
本文提出了自助检索 (Self-Retrieval) 的一种端到端、以大型语言模型为驱动的信息检索架构,能够充分内化信息检索系统所需的能力到一个单一的大型语言模型,深度利用语言模型在信息检索过程中的能力。实验结果表明,自助检索不仅在很大程度上优于以前的检索方法,还能显著提升以大型语言模型为驱动的下游应用,例如检索增强生成。
Feb, 2024
使用学习排序技术结合不同的信息检索系统,解决大型语言模型中幻觉和过时信息的问题,提高检索问题回答任务的性能,并在 SQuAD 数据集上取得了最先进的结果。
Jun, 2024
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024
本文探讨了在在线广告系统中利用大型语言模型 (LLM) 的潜力,深入研究了该系统必须满足的隐私、延迟、可靠性、用户和广告商满意度等关键要求。我们进一步介绍了一个 LLM 广告的通用框架,包括修改、竞价、预测和拍卖模块,对每个模块的设计考虑进行了详细探讨,分析了它们的实用性以及实现中存在的技术挑战。
Nov, 2023
利用大型语言模型(LLM)的知识构建了一个新的生成检索框架,以提高相关性和直接回答搜索问题的能力,验证生成结果的可靠性和贡献来源的可信度,实现了在 LLM 时代的 “PageRank”。该框架包括生成器、验证器和优化器三个核心模块,分别关注生成可信任的在线来源、验证来源可靠性以及优化不可靠的来源。通过广泛的实验和评估,证明了我们方法在相关性、负责性和可信性上对多种最先进方法的优越性。
Oct, 2023