信息检索的查询扩展技术：一项调查

Aug, 2017

信息检索的查询扩展技术：一项调查

Query expansion techniques for information retrieval: A survey

Hiteshwar Kumar Azad, Akshay Deepak

TL;DR本文探讨了从 1960 年至 2017 年信息检索中的查询扩展技术，包括核心技术、数据源、加权和排名方法、用户参与以及应用，揭示了其相似性和差异性。

Abstract

With the ever increasing size of the web, relevant information extraction on the Internet with a query formed by a few keywords has become a big challenge. query expansion (QE) plays a crucial role in improving searches on the Internet. Here, the user's initial query is reformulated by

query expansion information retrieval search data sources applications

发现论文，激发创造

利用维基百科和 WordNet 进行查询扩展的新方法

使用维基百科和 WordNet 作为数据源，本研究提出了一种新的查询扩展技术，并采用新的加权方案，获得 24% 的 MAP 分数和 48% 的 GMAP 分数提升。

Jan, 2019

网络搜索中基于事件的查询扩展

本文提出了一种新的查询扩展系统 Event-Centric Query Expansion（EQE），通过从大量的潜在事件中挖掘最佳扩展，快速准确地提高搜索质量，该系统已被部署在腾讯 QQ 浏览器搜索中，服务于数亿用户。

May, 2023

基于众包知识的代码搜索查询扩展

利用众包知识的查询扩展方法，结合 Rocchio 模型提出了一种技术 (QECK Rochhio)，能够有效地提高代码搜索效率，实验结果显示此方法的准确率和 NDCG 在三个代码搜索算法中分别提高了 64％和 35％，而与最先进的查询扩展方法相比，其提高 22％的准确率和 16％的 NDCG。

Mar, 2017

BERT-QE: 基于上下文的查询扩展用于文档重新排名

本论文提供了一种使用 BERT 模型选择相关文档块进行扩展的新型查询扩展模型，能够在标准 TREC Robust04 测试集上显著优于 BERT-Large 模型，有助于解决查询扩展方法引入不相关信息的问题。

Sep, 2020

查询预测扩展文档

该研究提出了一种将搜索引擎文档扩展为与其内容相关或代表性术语的简单方法，并利用基于 Vanilla 序列到序列模型的数据集对其进行扩展，结合高效的重新排序组件，实现了两种检索任务的最高效结果。

Apr, 2019

语音助手系统中的查询扩展和实体加权查询重构检索

本文提出了一种新的查询扩展和实体加权方法，利用实体目录中的实体关系改进查询重构性能，实验发现该方法相比不使用查询扩展和加权的基准模型，特别是在前 10 个结果中，精度有 6% 的提高，在使用查询扩展和加权的其他基准模型中，精度有 5% 以上的提高。

Feb, 2022

事件驱动的查询扩展

本文研究了基于事件的查询扩展技术，利用新颖的词语和事件的嵌入机制在相同的向量空间中识别查询和事件之间的语义关系，进而在多个新闻文本检索数据集上显著提高检索性能。

Dec, 2020

使用大型语言模型进行语料导向的查询扩展

运用大语言模型生成的查询扩展可以显著增强信息检索系统，但由于模型的知识有限，导致扩展与检索语料库之间存在错位、产生幻觉和过时信息等问题。为了解决这些挑战，本文提出了基于语料库导向的查询扩展方法，利用大语言模型的相关性评估能力系统地识别初始检索文档中的关键句子，并将这些基于语料库的文本与大语言模型扩展的结果一起用于查询扩展，从而提高查询和目标文档之间的相关性预测。通过广泛的实验证明，该方法在没有任何训练的情况下表现出强大的性能，尤其适用于大语言模型缺乏知识的查询。

Feb, 2024

利用词嵌入的深度神经网络进行查询扩展

该论文介绍了一种基于词嵌入的 query expansion 方法，使用人工神经网络分类器来预测 query expansion 词汇的有用性，实验结果表明该方法显著提高了检索性能。

Nov, 2018

一个基于问题蕴涵的问答方法

本文提出了一种新的基于问题蕴含识别（Recognizing Question Entailment）的问答（Question Answering）方法，基于机器学习和深度学习算法，结合信息检索模型，在医疗领域实现了显著的问答准确率提升。

Jan, 2019