IR2:信息检索的信息规范化
研究表明,机器阅读理解数据集可以用于训练高性能的神经信息检索系统,利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。
Apr, 2021
信息检索系统 (IR) 是用户访问信息的关键工具,也是搜索引擎、问答系统和推荐系统等场景中被广泛应用的工具。本文综述了生成式信息检索 (GenIR) 的最新研究进展,涉及到生成式文档检索 (GR)、可靠响应生成以及 GenIR 系统的评估、挑战和未来前景。
Apr, 2024
本文研究生成信息检索是否只是另一种趋势或者像有些人声称的那样,是检索的范式变革,需要新的度量标准,理论基础,评估方法,任务定义,模型,用户界面等来探讨。
Jun, 2023
利用大型预训练语言模型作为综合数据生成器,对于信息检索任务的未监督数据的微调,可以使检索器在零样本学习和有监督学习的任务中获得更好的表现
Feb, 2022
本论文利用领域随机化方法针对强化学习与交互式信息检索技术之间的样本低效性问题,提高其学习效率并在 TREC Dynamic Domain (DD) 2017 跑道实验中,有效地提高 RL 智能体在处理未见过情况时的效能 22%。
Jun, 2020
这篇论文强调信息检索引擎在科学界日益重要,针对传统基于关键词的搜索引擎由于文章数量不断增多而效率低下的问题提出了解决方案,通过构建结构化记录和使用先进信息技术工具(包括可视化仪表盘),彻底改变研究人员访问和筛选文章的传统文本密集型方法。通过以 “传染病的再生数估计” 研究主题为核心的概念验证,使用调试过的大型语言模型自动创建结构化记录并填充后端数据库,以取代关键词。结果是一种新一代的信息检索方法,可通过此 https 网址访问。
Feb, 2024
提出一种名为 MIR2 的方法,通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性,实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。
Oct, 2023
论文研究了信息检索系统不仅可以检索与查询相关的信息,而且可以将其 “理解” 并综合成一个单一的文档,使用递归神经网络进行深度学习来人工合成文档,通过众包实验评估文档的相关性。
Jun, 2016
该研究介绍了一种基于文档检索的监管信息检索新方法 REG-IR,该方法使用一个包含整个文档的查询,比传统的短查询更具挑战性。此外,研究人员通过 EU 指令和英国立法之间的关系编制并发布了两个数据集,并使用基于 BERT 模型的多个表示从 BM25 到 k 最近邻的各种预取器进行了实验,证明对 BERT 模型进行领域内微调是 IR 的最佳表示。实验表明,由于存在相反标签的相似查询 - 文档对的相互矛盾监督,神经网络重新排序器表现不佳。然而,实验进一步表明,应用日期过滤器可以进一步提高检索性能,突显时间维度的重要性。
Jan, 2021