真实世界中检索系统的比较分析

May, 2024

Comparative Analysis of Retrieval Systems in the Real World

Dmytro Mozolevskyi, Waseem AlShikh

TL;DR使用先进的语言模型与搜索与检索系统进行整合的综合分析，目的是通过精确度和效率方面的性能评估和比较不同的最先进方法。该研究探索了包括 Azure Cognitive Search Retriever 与 GPT-4、Pinecone 的 Canopy 框架、Langchain 与 Pinecone 和不同语言模型（OpenAI、Cohere）、LlamaIndex 与 Weaviate Vector Store 的混合搜索、Google Cloud VertxAI-Search 上的 RAG 实现、Amazon SageMaker 的 RAG 以及一种名为 KG-FID 检索的新方法在内的不同技术组合。研究报告的动机源于各个领域对鲁棒且反应迅速的问答系统的不断增长需求。使用 RobustQA 指标评估了这些系统在各种问题改写下的性能。该报告旨在洞察每种方法的优点与缺点，为部署和开发基于人工智能的搜索与检索系统提供决策依据。

Abstract

This research paper presents a comprehensive analysis of integrating advanced language models with search and retrieval systems in the fields of information retrieval and →

language models search and retrieval systems information retrieval natural language processing question-answering systems

发现论文，激发创造

基于 LLM 的问答系统中检索组件的评估

评估大规模语言模型在问答系统中的检索组件性能的基线方法。

Jun, 2024

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

基于 RAG 的多源检索问答框架

基于 GPT-3.5 的多源检索框架（MSRAG）实现了检索增强生成技术（RAG）的改进，提高了问答系统的效率和准确性。

May, 2024

大型语言模型在信息检索中的应用：综述

信息检索系统和大型语言模型的融合，包括关键方面，如查询重写、检索、重新排序和阅读器，在这一快速发展的研究领域中提供全面的概述和深入的见解。

Aug, 2023

增强带增补查询的语言生成的检索过程

通过 Retrieval-Augmented Generation (RAG) 技术结合语言模型，本研究以智能技术为背景，探讨解决语言模型中的 “hallucination” 问题，并通过使用 Orca2 模型进行查询优化来提高性能。实证结果显示，在 RAG 的帮助下，初始语言模型的性能得到显著改善，并展示了使用语言模型生成查询的效果。引入 BERT 的 UMAP 技术进一步简化了文档检索过程。

Feb, 2024

重塑检索增强语言模型以回答查询

该研究探讨了大型语言模型的实际效果，并对比了检索增强语言模型的潜力。研究发现，与普通的大型语言模型不同，半参数语言模型将来自外部数据源的模型参数和知识结合起来进行预测。该模型通过视图、查询分析器 / 规划器和来源信息的创新应用使问题回答系统在精度和效率方面显著增强，可能还可用于其他 NLP 任务。

Jun, 2023

利用大型语言模型在 NFDI4DataScience Gateway 中进行学术问题回答

本研究介绍了一个基于 NFDI4DataScience Gateway 的学术问答系统，采用了检索增强生成模型（RAG）的方法。该系统利用强大的大语言模型提供动态交互和会话式搜索，通过实验分析证明了 Gateway 和学术问答系统的有效性。

Jun, 2024

关键词增强检索：与语音界面集成的信息检索新框架

通过使用关键词来提升大型语言模型在知识检索自动化中的应用，并降低推理时间和成本。

Oct, 2023

利用潜在知识和对话上下文实现真实世界会话问答

该论文提出了一种基于神经检索 - 阅读 (Retrieval-Reading) 系统和基于 TFIDF 的文本摘要技术来利用先前的谈话历史中的潜在知识的方法，以便更好地回答问题，并且实验证明该系统显著提高了回答质量。

Dec, 2022

检索即生成

我们提出了一种新颖的方法，通过从一系列支持文件中选择上下文相关的短语来生成文本，并使用语言学启发式方法初始化训练阐述，并通过迭代的自我增强来加强训练阐述。实验证明，与标准语言模型相比，我们的模型在各种知识密集型任务上不仅表现出色，而且在开放式文本生成中表现出更高的生成质量。我们的模型在 OpenbookQA 上将准确性从 23.47% 提高到 36.27%，在开放式文本生成中的 MAUVE 得分从 42.61% 提高到 81.58%。值得注意的是，我们的模型在几个检索增强基准中实现了最佳性能和最低延迟。总之，我们断言检索是更准确的生成，并希望我们的工作能够鼓励进一步研究这一新的转变。

Feb, 2024