科学审校 Reloaded: 透明度与逻辑推理的双向模式

Feb, 2024

科学审校 Reloaded: 透明度与逻辑推理的双向模式

Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning

Loïc Rakotoson, Sylvain Massip, Fréjus A. A. Laleye

TL;DR通过两个步骤解决科学信息检索中的限制，第一个步骤使用查询扩展来加强稀疏检索的语言理解，第二个步骤通过仅利用长文档中的信息来提供综合和信息丰富的答案，实现双向参与，进而在透明性、逻辑思维和综合理解方面带来显著的进展。

Abstract

information retrieval is a rapidly evolving field. However it still faces significant limitations in the scientific and industrial vast amounts of information, such as semantic divergence and vocabulary gaps in sparse retrieval, low precision and lack of interpretability in

information retrieval semantic search query expansion long documents comprehensive understanding

发现论文，激发创造

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

从关键词到结构化摘要：简化学术知识访问流程

这篇论文强调信息检索引擎在科学界日益重要，针对传统基于关键词的搜索引擎由于文章数量不断增多而效率低下的问题提出了解决方案，通过构建结构化记录和使用先进信息技术工具（包括可视化仪表盘），彻底改变研究人员访问和筛选文章的传统文本密集型方法。通过以 “传染病的再生数估计” 研究主题为核心的概念验证，使用调试过的大型语言模型自动创建结构化记录并填充后端数据库，以取代关键词。结果是一种新一代的信息检索方法，可通过此 https 网址访问。

Feb, 2024

构建可解释和可靠的新领域开放信息检索器

提出了一种信息检索管道，利用实体 / 事件链接模型和查询分解模型来更准确地关注查询的不同信息单元，该管道显著提高了对五个信息检索和问答基准的段落覆盖率和指代准确性。由于其卓越的可解释性和跨领域性能，它将成为需要在新领域上执行信息检索而无需大量投入的应用程序的首选系统。

Aug, 2023

从生物医学文献中进行大规模知识综合和复杂信息检索

本研究采用知识综合、段落检索、三元组检索和复杂问答等方法，构建一个可扩展的解决方案，以有效地从大规模研究文档中提取和探索复杂信息，以解决医疗保健行业面临的大量非结构化数据的问题，并在 COVID-19 数据集上进行了定性评估以证明其有效性。

Feb, 2023

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

通过搜索引擎和大型语言模型之间的交互进行知识细化

本文介绍了信息检索的演进以及大语言模型和搜索引擎的利弊，提出了 InteR 框架，通过交互改进知识的检索，并通过实验验证其优越性。

May, 2023

dIR -- 离散信息检索：使用大型语言模型对非结构化（和结构化）数据进行对话式搜索

dIR 是一种离散信息检索方法，利用大语言模型（LLM）将文本转化为表达性的表示形式，并通过文本到 SQL 的语义解析器进行查询。该方法使得在自由文本上进行新一类查询成为可能，相较于传统的经过精细调整的密集嵌入模型和基于 SQL 的知识库。

Dec, 2023

信息检索与大型语言模型结合：中国信息检索社区的战略报告

信息检索领域，自传统搜索开始已经发展得非常成熟，并且扩展到满足用户不同的信息需求。最近，大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力，为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索，还为用户理解、模型评估和用户系统交互提供了改进的解决方案。最重要的是，信息检索模型、大型语言模型和人类之间的相互作用形成了一个更强大的信息搜索技术范式。信息检索模型提供实时和相关的信息，大型语言模型提供内部知识，而人类在信息服务的可靠性方面起到了需求者和评估者的核心角色。然而，仍然存在一些重大挑战，包括计算成本、可信度问题、特定领域限制和伦理考虑。为了深入讨论大型语言模型对信息检索研究的变革性影响，中国信息检索界于 2023 年 4 月举办了一次战略研讨会，得出了有价值的见解。本文总结了研讨会的成果，包括对信息检索核心价值的重新思考、大型语言模型和信息检索的相互增强、一个新的信息检索技术范式的提出以及面临的挑战。

Jul, 2023

一种针对信息检索的表征性方法的概念框架

本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展，该框架试图将稠密和稀疏检索方法整合起来，并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数，将查询和文档映射到表征空间，并计算查询 - 文档分数，同时分析了密集与稀疏表征和监督与无监督方法的影响。最后，作者提供了一个研究路线图，使得该框架更加清晰且提供未来工作的方向。

Oct, 2021