KITAB: 对于信息检索的约束满足性评估 LLMs

Oct, 2023

KITAB: 对于信息检索的约束满足性评估 LLMs

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul...

TL;DR我们研究了目前最先进的模型在回答信息检索的约束满足查询（例如 “圣地亚哥的冰淇淋店列表”）方面的能力。我们介绍了 KITAB 数据集，它包括与 600 多位作者和 13000 多个查询相关的图书相关数据，并提供了相关的动态数据收集和约束验证方法，以获得其他作者的类似测试数据。结果表明，在缺乏上下文的情况下，模型在满足约束方面存在严重局限，包括与查询无关的信息、事实错误和不完整性等问题。尽管上下文的可用性可以减少与查询无关的信息，但它对满足约束并不有帮助，从而揭示出约束满足的根本障碍。我们开源我们的贡献，以促进未来模型在改善约束满足能力方面的进一步研究。

Abstract

We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More

constraint satisfaction information retrieval large language models kitab dataset context availability

发现论文，激发创造

揭示大型语言模型在从表格中获取信息方面的局限性

本文介绍了一种可靠的用于表格信息检索（TabIS）的基准评估方式，揭示了大型语言模型（LLMs）在从表格中获取信息方面存在的限制和潜在挑战。

Jun, 2024

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

评估语言模型用于知识库补全

本文介绍了一种更具挑战性的基准数据集和方法，用于评估语言模型在无监督知识库补全方面的潜力，并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。

Mar, 2023

何时检索：教导 LLMs 有效利用信息检索

本文介绍了如何使用大型语言模型（LLMs）有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估，我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下，相比相同 LLM 的改进。通过我们的分析，我们证明了当 Adapt-LLM 确定无法回答问题时，它能生成 <RET> 标记，表明需要进行信息检索，同时当只依赖参数存储器时，其达到明显高的准确率水平。

Apr, 2024

引航知识海洋：利用 LLM 进行星球级答案检索

信息检索技术是一个不断发展的领域，这篇论文综述了信息检索技术的演变，重点讨论大型语言模型在传统搜索方法与新兴答案检索范式之间的桥梁作用。借助 GPT-4 等大型语言模型的整合，响应检索和索引领域正在发生范式转变，从而使用户能够更直接地与信息系统进行互动并获得语境相关的回答。通过这一探索，我们希望揭示塑造这一发展历程的技术里程碑及未来可能的方向。

Feb, 2024

为高效、个性化信息检索调整语言模型的方法与影响

大型语言模型（LLMs）在信息检索方面的优化、模型幻觉、用户隐私等关键问题的研究。

Nov, 2023

关注满足：论语言模型的事实错误的约束满足视角

使用 Transformer-based 大型语言模型，研究当其生成错误的文本时的内部行为；将事实查询建模为约束满足问题，并使用该框架来研究模型与事实约束的内部交互；通过研究包含超过 40,000 个提示的 11 个数据集，在各种规模的 Llama-2 系列（7B、13B、70B）上研究预测事实错误的任务；提出了一种可以预测约束满足和事实错误、并且可以早期发现错误的 self-attention 模式探查方法 SAT Probe；这些方法和发现表明，利用对大型语言模型中事实性的机械理解可以提高可靠性。

Sep, 2023

我们能利用大型语言模型填补相关性评判空缺吗？

利用大型语言模型填补测试集中的空缺，以扩展现有的测试集合，并找出人工注释与自动注释的一致性差异，从而更好地满足人类需求的工作。

May, 2024

产品搜索的相关判断大型语言模型

基于 Large Language Models (LLMs) 的技术，通过自动化查询 - 商品对的相关性判断，改善产品搜索的相关性预测精度，对商品搜索的相关判断自动化领域具有重要影响。

Jun, 2024

朝可验证的生成方式迈进：知识感知语言模型归因的基准

大型语言模型（LLMs）在可靠性方面通常存在不可靠的幻觉。在本文中，我们定义了一项名为知识感知语言模型归因（KaLMA）的新任务，它改进了传统归因语言模型的三个核心问题。

Oct, 2023