- JMLR: 提升推理能力和专业问答能力的联合医疗语言模型和检索训练
通过在细调阶段共同训练信息检索系统和大规模语言模型,引入了一种创新方法 —— 共同医学 LLM 和检索训练(JMLR),以克服传统模型在处理医学问答任务方面面临的挑战,通过采用同步训练机制,JMLR 降低了对计算资源的需求,增强了模型利用医 - 基于大型语言模型的大规模网络搜索用户仿真
基于大型语言模型的用户模拟框架用于改善用户搜索行为分析和建模,通过生成大规模的用户配置文件可有效模拟大规模人类搜索行为,并提供了一个全新的数据集以促进信息检索领域的研究。
- COLINGIR2:信息检索的信息规范化
使用 IR2 信息规范化技术在有限训练数据环境下,针对复杂查询进行综合数据生成和信息检索,实验结果表明这种规范化技术在数据生成过程中优于以往的方法,并可将成本降低 50%。
- 自我检索:运用一种大型语言模型构建信息检索系统
本文提出了自助检索 (Self-Retrieval) 的一种端到端、以大型语言模型为驱动的信息检索架构,能够充分内化信息检索系统所需的能力到一个单一的大型语言模型,深度利用语言模型在信息检索过程中的能力。实验结果表明,自助检索不仅在很大程度 - INSTRUCTIR: 信息检索模型执行指令遵循的基准
提出一种新的基准测试模型 INSTRUCTIR,专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析,观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组,凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题 - 科学审校 Reloaded: 透明度与逻辑推理的双向模式
通过两个步骤解决科学信息检索中的限制,第一个步骤使用查询扩展来加强稀疏检索的语言理解,第二个步骤通过仅利用长文档中的信息来提供综合和信息丰富的答案,实现双向参与,进而在透明性、逻辑思维和综合理解方面带来显著的进展。
- 利用 BERT 进行信息检索:调查、应用、资源和挑战
近年来,深度学习在解决各种自然语言处理问题上得到了大量应用。本文回顾了以 BERT 为代表的预训练模型在信息检索领域的方法,涵盖了长文档处理、语义信息整合、平衡效果与效率、术语权重预测、查询扩展和文档扩展等六个高级类别,并与基于解码器的生成 - 探索 ChatGPT 对于下一代信息检索:机遇与挑战
人工智能领域中,ChatGPT 作为一项重要技术,对信息检索产生了重要影响,本文旨在研究 ChatGPT 在信息检索任务中的影响以及其潜在未来发展。
- ExaRanker-Open:使用开源 LLMs 的 IR 合成解释
ExaRanker-Open 使用开源语言模型产生解释,通过数据增强方法不断加强神经排序器,在不同的数据集大小下持续提升信息检索模型的效果,并在研究中以 nDCG@10 点优于目标基准 0.6 点。
- 引航知识海洋:利用 LLM 进行星球级答案检索
信息检索技术是一个不断发展的领域,这篇论文综述了信息检索技术的演变,重点讨论大型语言模型在传统搜索方法与新兴答案检索范式之间的桥梁作用。借助 GPT-4 等大型语言模型的整合,响应检索和索引领域正在发生范式转变,从而使用户能够更直接地与信息 - WWW搜索和检索增强生成的列表感知重排序 - 截断联合模型
我们提出了一个联合模型(GenRT),通过生成式编码 - 解码结构将重新排序和截断这两个任务同时进行,从而解决了信息检索中重新排序和截断任务之间的问题。实验证明,我们的方法在网络搜索和检索增强的大语言模型上的重新排序和截断任务均达到了最佳表 - WWW通过证据模式检索增强知识图谱上的复杂问题回答
信息检索中的知识图谱问答方法包括两个阶段:子图提取和答案推理。我们认为当前的子图提取方法低估了证据事实之间的结构依赖的重要性。我们提出了证据模式检索(EPR)来在子图提取过程中明确地建模结构依赖关系。通过对资源对的原子相邻模式进行索引,我们 - 图片描述和搜索的流水线
数字图像的组织与检索面临巨大挑战,本文介绍了基于大语言模型的图像字幕和搜索管道(PICS)方法,利用人工智能生成的图像字幕和情感分析来提高图像检索的可用性和搜索精确度,从而改变图像数据库系统,并满足现代数字资产管理的需求。
- 信息损失问答:文本简化中的信息损失特征和恢复
文本简化旨在使技术文本对普通读者更易理解,但常常导致信息缺失和模糊。本研究提出了 InfoLossQA 框架,以问答对的形式描述和恢复由于简化而导致的信息缺失,并基于 Question Under Discussion 理论设计问答对,以帮 - 噪声的力量:为 RAG 系统重新定义检索
通过详细和批判性地分析信息检索组件对检索辅助生成系统的影响,本研究揭示了特定类型的文档对于有效的检索辅助生成提示公式所需的特征,发现包括不相关的文档能出乎意料地提高准确性超过 30%。这些结果强调了需要开发专门策略来将检索与语言生成模型相结 - Ta'keed: 第一个用于阿拉伯语断言的生成式事实核查系统
该研究介绍了 Ta'keed,一种可解释的阿拉伯语自动事实检测系统,并通过利用信息检索和基于 LLM 的主张验证两个主要组件来评估主张真实性,进一步探讨了不同片段数量对主张分类准确性的影响。
- 增强图像检索:基于 CLIP 模型的照片搜索的全面研究
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
- COVID-19 相关论文的信息检索和提取工具
本研究的主要目标是开发一种工具,将信息检索和提取技术应用于 COVID-19 开放研究数据集(CORD-19),为研究人员提供更好的 COVID-19 相关论文搜索工具,帮助他们找到参考论文并突出显示文本中的相关实体。
- 聊天机器人的人工智能革命:来自一项随机对照实验的证明
通过一个领域性的随机控制试验,评估基于大型语言模型的工具在提供无监控支持服务方面的有效性。
- INTERS: 在搜索中利用指导调整解锁大型语言模型的能力
本研究探索指令调优提高大型语言模型在信息检索任务中的能力,并引入了一个新的指令调优数据集,INTER,涵盖了查询理解、文档理解和查询 - 文档关系理解三个基本 IR 类别的 21 个任务。实证结果表明,INTER 显著提高了公开可用的 LL