通过智能分组减轻 LLM 输入长度的限制,采用类似锦标赛的积分系统确保鲁棒的排序,我们引入了一种名为 TourRank 的新型文件排名方法,实验证明 TourRank 在合理的成本下实现了最先进的性能。
Jun, 2024
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
我们使用长短时记忆(LSTM)来捕捉上下文依赖关系,以解决信息检索中的词汇不匹配和长期上下文建模问题,从而显着优于现有的网络文档检索方法。
Dec, 2014
本文提出了一种新的长文档重新排序方法,通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型,避免了编码过程中低维度表示带来的信息瓶颈,实现了从全部文档中提取重要信息的目的,并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。
May, 2022
在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上,使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法,在多层文本排序任务中取得了强大的效果。
May, 2023
本文基于 Guo 等人 (2016) 的深度相关匹配模型 (DRMM),探讨了几种新的文件相关性排序模型。加入上下文有关的编码,包括多视图的查询和文档输入,测试证明新模型优于 BM25,DRMM 和 PACRR。
Sep, 2018
在电子商务搜索引擎中,语义相关性计算对于确保所选项目与客户意图紧密对齐至关重要。本文介绍了一种基于交互的建模范式,通过动态长度表示方案、专业术语识别方法和对抗性训练协议来增强模型的鲁棒性和匹配能力。离线评估表明我们方法的卓越鲁棒性和效果,在线 A/B 测试证实了在相同曝光位置提高相关性、增加点击和转化的能力。据我们所知,这是第一个用于大型电子商务搜索相关性计算的基于交互的方法。
本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型,该模型能够自动侦测句子中关键词和主题,从而进行网络文档检索等艰难的语言处理任务,并在性能上显著优于现有的先进方法。
Feb, 2015
使用学习排序技术结合不同的信息检索系统,解决大型语言模型中幻觉和过时信息的问题,提高检索问题回答任务的性能,并在 SQuAD 数据集上取得了最先进的结果。
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020