学术检索中语言模型的低效性：一个实验性概述

ACLMar, 2022

学术检索中语言模型的低效性：一个实验性概述

The Inefficiency of Language Models in Scholarly Retrieval: An Experimental Walk-through

Shruti Singh, Mayank Singh

TL;DR评估科学语言模型在处理短查询文本和文本邻居时的能力，并通过小扰动生成的文本邻居证明不是所有扰动都会导致嵌入空间中的接近邻居。此外，研究发现检索性能更受文本表面形式的影响，而不是文本的语义。

Abstract

language models are increasingly becoming popular in AI-powered scientific IR systems. This paper evaluates popular scientific language models in handling (i) short-→

language models scientific ir systems query texts textual neighbors retrieval performance

发现论文，激发创造

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

大型语言模型在信息检索中的应用：综述

信息检索系统和大型语言模型的融合，包括关键方面，如查询重写、检索、重新排序和阅读器，在这一快速发展的研究领域中提供全面的概述和深入的见解。

Aug, 2023

语料库结构、语言模型和即席信息检索

本文提出了一种基于语言模型的信息检索算法框架的新方法，并将类似文档群的信息整合进去以提高检索效果；实验结果表明，即使是此新方法中的较简单算法也能优于标准语言模型方法，并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。

May, 2004

大型语言模型对无关输入的响应会如何被扭曲？

通过检索外部知识数据库，大语言模型在许多知识密集型任务中展示出增强的能力。然而，由于当前检索系统的固有缺陷，存在于排名靠前段落中的信息可能是不相关的。本文全面研究了 LLMs 对不同类型不相关信息在各种条件下的鲁棒性，通过构建高质量的不相关信息框架，展示了当前解决不相关信息的方案在提高 LLMs 对这些干扰的鲁棒性方面存在局限性。

Apr, 2024

DocReLM: 用语言模型掌握文档检索

通过使用大型语言模型，我们展示了文献检索系统能够达到先进的语义理解能力，显著优于现有系统；我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器，此外，我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能；我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能，结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%，而 Google Scholar 为 15.69%，在量子物理学中提高到 36.21%，而 Google Scholar 为 12.96%。

May, 2024

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

基于摘要描述的文本检索

本文提出了新的检索模型，结合了指令模型和基于检索模型，使用大型语言模型的正负对进行训练，以改进当前文本嵌入技术性能。

May, 2023

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

LLM 可能主导信息检索：神经检索器偏向于由 LLM 生成的文本

大型语言模型在信息检索应用中产生的源偏见以及相关的模型评估和研究的重要性。

Oct, 2023

检索即生成

我们提出了一种新颖的方法，通过从一系列支持文件中选择上下文相关的短语来生成文本，并使用语言学启发式方法初始化训练阐述，并通过迭代的自我增强来加强训练阐述。实验证明，与标准语言模型相比，我们的模型在各种知识密集型任务上不仅表现出色，而且在开放式文本生成中表现出更高的生成质量。我们的模型在 OpenbookQA 上将准确性从 23.47% 提高到 36.27%，在开放式文本生成中的 MAUVE 得分从 42.61% 提高到 81.58%。值得注意的是，我们的模型在几个检索增强基准中实现了最佳性能和最低延迟。总之，我们断言检索是更准确的生成，并希望我们的工作能够鼓励进一步研究这一新的转变。

Feb, 2024