- 从人工针到真实大量数据集:通过在合成数据上进行微调来改进 LLMs 的检索能力
利用合成数据集对大型语言模型进行微调,显著提高了其在长上下文环境下的信息检索和推理能力。
- 逐步重新排序:研究大型语言模型的预过滤重新排序
使用人工生成的相关性评分和 LLM 相关性评分,在对信息检索进行重新排序之前进行预过滤,能够有效地过滤掉不相关的段落,并使较小模型如 Mixtral 能够与更大的专有模型(如 ChatGPT 和 GPT-4)具有竞争力。
- CLERC: 法律案件检索数据集及检索增强分析生成
通过转化一个大型开源法律语料库为数据集,我们构建了 CLERC(Case Law Evaluation Retrieval Corpus)数据集,用于培训和评估智能系统在寻找相关引用和编写支持推理目标的连贯分析方面的能力。我们在 CLERC - 历史问题中大型语言模型(LLM)的响应能力评估
通过对十个选择的大型语言模型在法语历史事实方面的回应进行评估,我们发现大型语言模型在内容和形式方面存在许多不足之处,包括整体准确率不够高、对法语的处理不均衡以及回应中的冗长和不一致性问题。
- RE-AdaptIR: 逆向工程的改进信息检索适应性
通过使用未标记的数据,我们研究了倒向工程适应信息检索 (RE-AdaptIR) 的有效性,以改进只使用未标记数据的基于大语言模型的信息检索 (LLM-based IR) 模型, 并且展示了在培训领域和未见过查询的领域中性能的改善。
- LLM 长文本语境失误的洞见:当转换器知道但不透露
大型语言模型(LLM)存在位置偏差,难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现,虽然 LLMs 编码目标信息的位置,但在生成准确回答时往往未能充分利用这一特性。这揭示了信 - APEER:自动提示工程提升大型语言模型重排
通过自动提示工程算法 APEER,大型语言模型在信息检索中的零样本相关性排名取得了显著的性能提升,并展现出更好的跨任务和跨语言模型的可迁移性。
- DIRAS:检索增强生成中高效的 LLM 辅助文档相关性标注
本文提出了 DIRAS(Domain-specific Information Retrieval Annotation with Scalability)方法,通过细调开源 LLMs 来使用校准的相关性概率注释相关标签,实现了 GPT-4 - 预测信息需求的实现:一项脑电图研究
利用脑电图数据预测信息需求的实现,对实时预测信息需求的实现进行研究,提高信息检索实践的可行性。
- 因子化诅咒:预测逆转诅咒及更多的标记
最好的语言模型仍然在幻影现象方面存在困难:生成的事实不正确,这妨碍了它们在训练期间可靠地检索到的信息;我们将逆序诅咒重新界定为因子化诅咒 - 模型在不同的因子化下学习相同联合分布的失败;通过一系列的受控实验,包括我们引入的模拟知识密集的微调 - ACL信息检索中的索引偏见的测量和应对
信息检索系统的相关性排序可能引入指示偏见,该研究引入了自动偏见审核框架(PAIR framework)和偏见度量(bias metric),通过对 8 个信息检索系统进行评估,在一系列有争议的主题中,验证了指示偏见如何影响读者意见的预测。
- 生成式信息检索综述
通过综述 Generative Retrieval(GR)的关键发展、索引和检索策略和挑战,讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向,旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。
- LLM-RankFusion:基于 LLM 的排名中内在不一致问题的缓解
使用语言模型比较并排序排名的矛盾问题,我们提出了一种使用 LLM-RankFusion 的方法,它有效地减少了排序的不一致性,提高了排名质量。
- Conv-CoA: 通过 交互式 行动链 提高大型语言模型中的 开放域 问答
我们提出了一个面向开放域会话问答 (OCQA) 的会话动作链 (Conv-CoA) 框架,用于解决现有文献中的三个主要挑战:与实时或领域事实不一致的虚假幻觉、会话场景中弱推理能力以及在会话信息检索方面表现不理想。我们的关键贡献是一种动态推理 - KSW: 基于高棉停用词的关键词提取字典
该论文介绍了一种针对高棉语的关键词提取方法 KSW,利用了专门的停用词词典,并通过实施预处理方法来去除停用词,从而提高有意义的关键词的提取效果。实验证明,与先前方法相比,KSW 在准确性和相关性方面取得了显著的改进,彰显了其推进高棉语文本处 - ACLCocktail:一种综合信息检索基准与 LLM 生成文档集成
本文介绍了一个特定的综合基准模型 Cocktail,以评估混合数据环境下的信息检索模型,该环境由大型语言模型和人类编写的内容相结合。通过对 Benchmark 数据集进行超过 1,000 次实验,我们揭示了神经检索模型的排名性能和源偏差之间 - COLING产品问答中高效易于解释的异构数据信息检索
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编 - SIGIRIM-RAG: 内心独白学习的多轮检索增强生成
通过集成 IR 系统与 LLMs 来支持多轮 RAG,提出了一种新的 LLM 中心方法 IM-RAG,优化通过强化学习和监督微调,实现在 HotPotQA 数据集上达到最先进性能的同时提供高度可灵活性的 IR 模块集成和学习的内部独白解释性 - TANQ: 一个开放领域的表格问答数据集
TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型 GPT4 的综合 F1 得分为 29.1,相较于人类表现差了 19.7 个百分点,我 - 通过大型语言模型重定义结构化数据库的信息检索
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决