IR2：信息检索的信息规范化

COLINGFeb, 2024

IR2: Information Regularization for Information Retrieval

Jianyou Wang, Kaicheng Wang, Xiaoyue Wang, Weili Cao, Ramamohan Paturi...

TL;DR使用 IR2 信息规范化技术在有限训练数据环境下，针对复杂查询进行综合数据生成和信息检索，实验结果表明这种规范化技术在数据生成过程中优于以往的方法，并可将成本降低 50%。

Abstract

Effective information retrieval (IR) in settings with limited training data, particularly for complex queries, remains a challenging task. This paper introduces ir2, Information Regularization for →

information retrieval ir2 regularization techniques synthetic data generation complex-query ir scenarios

发现论文，激发创造

利用合成预训练构建稳健的神经检索模型

研究表明，机器阅读理解数据集可以用于训练高性能的神经信息检索系统，利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。

Apr, 2021

从匹配到生成：生成式信息检索综述

信息检索系统 (IR) 是用户访问信息的关键工具，也是搜索引擎、问答系统和推荐系统等场景中被广泛应用的工具。本文综述了生成式信息检索 (GenIR) 的最新研究进展，涉及到生成式文档检索 (GR)、可靠响应生成以及 GenIR 系统的评估、挑战和未来前景。

Apr, 2024

第一届生成式信息检索研讨会 @SIGIR 2023

本文研究生成信息检索是否只是另一种趋势或者像有些人声称的那样，是检索的范式变革，需要新的度量标准，理论基础，评估方法，任务定义，模型，用户界面等来探讨。

Jun, 2023

InPars: 使用大型语言模型的信息检索数据增强

利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Feb, 2022

一种公理化正则化神经排序模型的方法

本文探讨多个领域的 Axiom 同时用于训练神经网络排序模型，该方法在信息检索的相关性评估中表现出更快的收敛速度和更好的泛化性能。

Apr, 2019

交互式信息检索中的强化学习训练经验平衡

本论文利用领域随机化方法针对强化学习与交互式信息检索技术之间的样本低效性问题，提高其学习效率并在 TREC Dynamic Domain (DD) 2017 跑道实验中，有效地提高 RL 智能体在处理未见过情况时的效能 22%。

Jun, 2020

从关键词到结构化摘要：简化学术知识访问流程

这篇论文强调信息检索引擎在科学界日益重要，针对传统基于关键词的搜索引擎由于文章数量不断增多而效率低下的问题提出了解决方案，通过构建结构化记录和使用先进信息技术工具（包括可视化仪表盘），彻底改变研究人员访问和筛选文章的传统文本密集型方法。通过以 “传染病的再生数估计” 研究主题为核心的概念验证，使用调试过的大型语言模型自动创建结构化记录并填充后端数据库，以取代关键词。结果是一种新一代的信息检索方法，可通过此 https 网址访问。

Feb, 2024

MIR2: 通过相互信息正则化迈向可证实鲁棒性的多智能体强化学习

提出一种名为 MIR2 的方法，通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性，实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。

Oct, 2023

深度学习相应：创造相关信息（与检索不同）

论文研究了信息检索系统不仅可以检索与查询相关的信息，而且可以将其 “理解” 并综合成一个单一的文档，使用递归神经网络进行深度学习来人工合成文档，通过众包实验评估文档的相关性。

Jun, 2016

通过 Doc2Doc 信息检索实现合规性监管：在欧盟 / 英国立法中进行的案例研究，其中文本相似性具有限制

该研究介绍了一种基于文档检索的监管信息检索新方法 REG-IR，该方法使用一个包含整个文档的查询，比传统的短查询更具挑战性。此外，研究人员通过 EU 指令和英国立法之间的关系编制并发布了两个数据集，并使用基于 BERT 模型的多个表示从 BM25 到 k 最近邻的各种预取器进行了实验，证明对 BERT 模型进行领域内微调是 IR 的最佳表示。实验表明，由于存在相反标签的相似查询 - 文档对的相互矛盾监督，神经网络重新排序器表现不佳。然而，实验进一步表明，应用日期过滤器可以进一步提高检索性能，突显时间维度的重要性。

Jan, 2021