- INTERS: 在搜索中利用指导调整解锁大型语言模型的能力
本研究探索指令调优提高大型语言模型在信息检索任务中的能力,并引入了一个新的指令调优数据集,INTER,涵盖了查询理解、文档理解和查询 - 文档关系理解三个基本 IR 类别的 21 个任务。实证结果表明,INTER 显著提高了公开可用的 LL - 制造业中使用大语言模型的知识分享:用户评估与模型基准测试
工厂知识管理的关键是高效地处理知识。本研究使用基于大型语言模型的系统,通过利用工厂文档中的广泛知识,旨在有效回答操作员的查询并促进新知识的分享。在工厂环境中进行的评估结果显示该系统具有快速信息检索和更高效问题解决的优势,然而研究还表明在有人 - 超越提取:通过语言模型对表格数据进行上下文化总结
通过存储 PDF 文档和单独提取表格内容,使用 Llama-2-chat 语言模型进行汇总,并通过 ChatGPT 3.5 API 增强表格数据的上下文意义,该研究提出了一种创新方法,以显著提高 Retrieval-Augmented Ge - keqing:基于知识的问答是 LLM 的自然思维导师
本研究介绍了一种用于辅助大型语言模型检索相关结构化信息的新框架,该框架通过信息检索模块和生成基于检索到的知识的响应实现,以提高大型语言模型在知识范围之外的问题上的处理能力。实验结果表明,该框架实现了对复杂问题答案的逐步查找,并生成了推理路径 - ChatEd: 高等教育中基于 ChatGPT 的增强学习体验的聊天机器人
结合 ChatGPT 和传统的基于信息检索的聊天机器人框架,提供优化的高等教育学生支持,以解决 LLMs 在教育背景下生成错误、偏见或无用答案的挑战。
- 在 NASA SciX 中对大型语言模型和向量嵌入进行实验
使用开源大型语言模型,NASA SciX 通过信息检索和数据增强的替代方法提供创新思路,同时尊重数据版权和用户隐私。在提问时,直接使用大型语言模型容易产生错觉。通过使用语义向量和上下文分块设计的提示系统,NASA SciX 的实验表明使用检 - AAAIWikiformer: 以维基百科结构化信息预训练的 Ad-hoc 检索
利用维基百科的结构化知识,我们设计了四种针对信息检索任务的预训练目标,实验结果表明,相较于现有的预训练方法,我们的模型在零样本和微调设置中都表现出优越的性能,尤其是在需要长文本相似度匹配的垂直领域。
- ESPN:高效内存多向量信息检索
最近大规模语言模型在信息检索任务中显示出了显著的有效性。然而,多向量模型在检索索引的存储和内存方面需要更大的需求,这使得多向量 IR 模型的可扩展性逐渐面临挑战。本文介绍了一种名为 ESPN 的存储引入的嵌入式网络模型,通过将整个重排序嵌入 - PaperQA: 科学研究的增强检索生成代理
使用 PaperQA,通过对科学文献进行信息检索,评估来源和段落的相关性,并利用 RAG 提供答案的方法,超越现有的 LLMs 和 LLM 代理在当前科学问答基准测试上的表现,使得该代理模型能够进行大规模、系统化的科学知识处理。
- Web 搜索中的事件驱动实时检索
本文研究信息检索在实时搜索中面临的挑战,通过整合事件信息和查询,利用跨注意力机制实现时间背景的查询表示,通过多任务训练增强事件表示能力,以及通过两阶段训练和硬负采样进行模型优化,并通过实验证明本方法在时间敏感场景下显著优于现有基线方法。
- 搜索仍然重要:在生成式人工智能时代的信息检索
利用生成型人工智能和大型语言模型探索信息检索中的动机、考虑因素和结果,主要关注学术界对这些系统的使用,尤其关注作者权威性、及时性和搜索结果的文脉化;虽然大型语言模型可以提供有助于信息检索的功能,但对搜索系统及其改进的持续需求仍然是必要的。
- UniIR: 训练和基准测试通用多模态信息检索器
对于信息检索 (IR) 模型通常假设为同质化格式,限制了其适用于各种用户需求,如使用文本描述搜索图片,使用标题图搜索新闻文章或使用查询图搜索相似照片。为了满足这种不同的信息需求,我们引入了 UniIR,一种统一的指令引导多模态检索器,可以处 - CRaQAn(问答中的指代消解)的发布:一个开源的数据集和数据集创建方法,使用指令遵循模型
通过使用指令跟踪模型(GPT-4)和递归批评和改进循环,我们开发了一个高质量数据集,该数据集包含超过 250 个包含共指的问题 - 回答对,以满足共指解析在问答任务中的信息检索需求。
- 针对召回导向的神经信息检索的相关性反馈策略
通过基于 BERT 的密集向量搜索产生的相关排名,并基于累积求和的查询和选择的嵌入,我们提出了一种更注重召回率的减少审核工作量的方法,该方法可与基线方法相比,以固定的召回目标为基础,减少 17.85% 至 59.04% 的审核工作量。
- 为高效、个性化信息检索调整语言模型的方法与影响
大型语言模型(LLMs)在信息检索方面的优化、模型幻觉、用户隐私等关键问题的研究。
- 评估生成式即时信息检索
通过调查信息检索和自然语言处理文献,识别生成式检索中的搜索任务和系统架构,开发相应的用户模型并研究其操作化,该文理论分析为生成式即时检索系统的评估提供了基础和新洞察。
- ACL分治法用于依存关系感知的多跳证据检索
通过考虑多种相关性信号,我们将多跳问题回答的证据检索任务划分为两个子任务:语义文本相似度和推理相似度检索。我们提出了两种集成模型 EAR 和 EARnest,分别处理每个子任务,然后考虑不同的相关性信号对句子进行重新排序。在 HotpotQ - 以情节检索为抽象语义关联评估
提出了一个名为 Plot Retrieval 的标记数据集来训练和评估信息检索模型在剧情检索任务上的性能,并展示了当前信息检索模型在捕捉文本之间的抽象语义关联方面仍然存在困难。
- EMNLP多语言欧洲议会数据集用于信息检索偏倚分析
Multi-EuP 是一个多语言基准数据集,由来自欧洲议会的 22K 多语言文档组成,涵盖 24 种语言。该数据集旨在研究多语言信息检索 (IR) 语境中的公平性,分析排名语境中的语言和人口统计偏差。它拥有一个真实的多语言语料库,涵盖了 2 - LLM 可能主导信息检索:神经检索器偏向于由 LLM 生成的文本
大型语言模型在信息检索应用中产生的源偏见以及相关的模型评估和研究的重要性。