使用查询性能预测的无监督搜索算法配置

Oct, 2022

使用查询性能预测的无监督搜索算法配置

Unsupervised Search Algorithm Configuration using Query Performance Prediction

Haggai Roitman

TL;DR该研究提出一种基于查询性能预测的简单解决方案，用于搜索引擎的自动配置，避免了需要训练有监督模型所需要的相关标签，只需要针对给定领域的一些查询样本即可达到目的。使用两个实例，论证了该解决方案的优点。

Abstract

search engine configuration can be quite difficult for inexpert developers. Instead, an auto-configuration approach can be used to speed up development time. Yet, such an automatic process usually requires releva

search engine auto-configuration supervised model query performance prediction use cases

发现论文，激发创造

无监督基于搜索的结构化预测

该研究描述了一种将搜索为基础的结构预测算法 “Searn” 应用于无监督学习问题的方法，并展示了将无监督学习简化为监督学习的可能性，并且演示了高质量的无监督移位 - 归约分析模型，最后展示了半监督学习拓展的效果。而关键创新点是将 “自预测” 概念应用于无监督学习。

Jun, 2009

查询预测扩展文档

该研究提出了一种将搜索引擎文档扩展为与其内容相关或代表性术语的简单方法，并利用基于 Vanilla 序列到序列模型的数据集对其进行扩展，结合高效的重新排序组件，实现了两种检索任务的最高效结果。

Apr, 2019

具有弱监督的神经排名模型

本文提出了使用弱监督学习方法训练神经排序模型来解决信息检索排名问题，并通过实验结果表明，基于弱标记数据的预训练可以极大地提高神经排序模型的性能。

Apr, 2017

探索合成查询生成在相关性预测中的可行性

本研究探讨了如何利用 QGen 方法进行细粒度的相关性预测，介绍了 label-conditioned QGen 模型来区分不同等级的相关性，然而 QGen 方法仍然难以捕捉到完整的相关性标签空间，从而生成的查询与所需的相关性标签不符。

May, 2023

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

面向信息检索的基于内容的弱监督再排序

论文研究了神经排序中标记相关性判定数量巨大的问题，并提出使用弱监督来源训练排名器，然后使用过滤技术排除域外样本，实现了有效的性能改进。

Jul, 2017

使用 Transformers 的无监督问答评估

本研究探讨了基于 Transformer 的 QA 模型中问题、答案和上下文的隐藏表示，并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确，其方法不需要任何标记数据且优于强启发式基线，在两个数据集和七个领域上均能够达到较高准确率。

Oct, 2020

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

基于结构预测的标签排序方法

本文提出了一种基于最小二乘代理损失的方法来解决标签排名问题，并针对本方法采用了具体的特征映射 / 嵌入来转换排名 / 排列为向量表示，旨在提高结构化预测的效率和准确性，在部分排名情况下有着良好的表现。

Jul, 2018