RLTM: 一种针对长文档的高效神经信息检索框架

IJCAIJun, 2019

RLTM: 一种针对长文档的高效神经信息检索框架

RLTM: An Efficient Neural IR Framework for Long Documents

Chen Zheng, Yu Sun, Shengxian Wan, Dianhai Yu

TL;DR提出了一种新的端到端神经排序框架 —— RLTM，它可以高效地匹配长文档，并且通过强化学习的方法在成对的样例间最大化正负例间的得分差距，从而显著提高了现有模型的效率和有效性。

Abstract

deep neural networks have achieved significant improvements in information retrieval (IR). However, most existing models are computational costly and can not efficiently scale to long documents. This paper propos

deep neural networks information retrieval long documents neural ranking reinforcement learning

发现论文，激发创造

TourRank: 利用大型语言模型进行文件排名的一种锦标赛策略

通过智能分组减轻 LLM 输入长度的限制，采用类似锦标赛的积分系统确保鲁棒的排序，我们引入了一种名为 TourRank 的新型文件排名方法，实验证明 TourRank 在合理的成本下实现了最先进的性能。

Jun, 2024

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

利用长短时记忆进行信息检索的语义建模

我们使用长短时记忆（LSTM）来捕捉上下文依赖关系，以解决信息检索中的词汇不匹配和长期上下文建模问题，从而显着优于现有的网络文档检索方法。

Dec, 2014

使用模块化 Re-ranker 进行长文档重新排名

本文提出了一种新的长文档重新排序方法，通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型，避免了编码过程中低维度表示带来的信息瓶颈，实现了从全部文档中提取重要信息的目的，并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。

May, 2022

基于大型语言模型的零样本列表式文档重排序

在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上，使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法，在多层文本排序任务中取得了强大的效果。

May, 2023

增强文档 - 查询交互的深度相关性排名

本文基于 Guo 等人 (2016) 的深度相关匹配模型 (DRMM)，探讨了几种新的文件相关性排序模型。加入上下文有关的编码，包括多视图的查询和文档输入，测试证明新模型优于 BM25，DRMM 和 PACRR。

Sep, 2018

面向在线电子商务和基于 LLM 的检索的鲁棒性基于交互关联建模

在电子商务搜索引擎中，语义相关性计算对于确保所选项目与客户意图紧密对齐至关重要。本文介绍了一种基于交互的建模范式，通过动态长度表示方案、专业术语识别方法和对抗性训练协议来增强模型的鲁棒性和匹配能力。离线评估表明我们方法的卓越鲁棒性和效果，在线 A/B 测试证实了在相同曝光位置提高相关性、增加点击和转化的能力。据我们所知，这是第一个用于大型电子商务搜索相关性计算的基于交互的方法。

Jun, 2024

使用长短期记忆网络的深度句子嵌入：分析和在信息检索中的应用

本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型，该模型能够自动侦测句子中关键词和主题，从而进行网络文档检索等艰难的语言处理任务，并在性能上显著优于现有的先进方法。

Feb, 2015

MrRank：通过多结果排名模型提升问答检索系统

使用学习排序技术结合不同的信息检索系统，解决大型语言模型中幻觉和过时信息的问题，提高检索问题回答任务的性能，并在 SQuAD 数据集上取得了最先进的结果。

Jun, 2024

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020