从少到多学更多：加强弱监督以实现即时检索

SIGIRJul, 2019

从少到多学更多：加强弱监督以实现即时检索

Learning More From Less: Towards Strengthening Weak Supervision for Ad-Hoc Retrieval

Dany Haddad, Joydeep Ghosh

TL;DR本文介绍了两种减少训练数据需求的方法：一种是通过众包方法生成标签，并去除有害数据；另一种则是使用学习排序模型生成训练数据。这些方法使我们要比以前更少的训练数据即可超越无监督基准的表现。

Abstract

The limited availability of ground truth relevance labels has been a major impediment to the application of supervised methods to ad-hoc retrieval. As a result, unsupervised scoring methods, such as BM25, remain

ad-hoc retrieval supervised methods unsupervised methods crowdsourcing learning-to-rank models

发现论文，激发创造

具有弱监督的神经排名模型

本文提出了使用弱监督学习方法训练神经排序模型来解决信息检索排名问题，并通过实验结果表明，基于弱标记数据的预训练可以极大地提高神经排序模型的性能。

Apr, 2017

面向信息检索的基于内容的弱监督再排序

论文研究了神经排序中标记相关性判定数量巨大的问题，并提出使用弱监督来源训练排名器，然后使用过滤技术排除域外样本，实现了有效的性能改进。

Jul, 2017

交互式弱监督：学习用于数据标注的有用启发式方法

该研究论文展开了交互式弱监督学习框架的研究，该框架中，方法提议启发式方法并从用户每个被提议的启发式反馈中学习，其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能，而不需要访问本文中使用的标签数据。

Dec, 2020

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

弱监督学习的约束标注

本文提出了一种基于约束空间的弱监督学习方法，将不同的弱监督信号结合起来进行训练，在文本分类和图像分类任务中优于其他方法。

Sep, 2020

具有相关感知对比预训练的无监督密集检索

本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法，应用于无监督稠密 Retriever 模型，提高了其检索效果并且表现出很好的 few-shot 学习能力。

Jun, 2023

半监督信息检索的对抗采样和训练

本文提出一种针对 ad-hoc 检索模型的数据不平衡及神经网络模型易受对抗干扰等问题的对抗性采样和训练框架，通过增强点击示例和获得非常信息化的非点击示例来学习 ad-hoc 检索模型，并在常见 ad-hoc 检索任务（如网络搜索，项目推荐和问答）的基准数据集上进行实验，结果表明该方法在高排名文档方面显着优于强基线，并且在使用仅占 5％的已标记数据对 IRGAN 在 NDCG@5 上实现更好的表现。

Nov, 2018

弱监督学习的批判性观察：远不及你所想的强

本文研究弱监督学习中复杂的训练方法，发现成功的关键在于干净的验证数据，即使只用五个样本的干净数据，已有方法的优势也会被削弱，因此提出了进一步研究方向建议。

May, 2023

利用薄弱的社交监督检测假新闻

本文探讨如何利用社交媒体生成弱社交监督来缓解标签数据的匮乏问题，并以社交媒体上的假新闻检测为例，展示了弱社交监督在面对标记数据问题时的有效性，为其他新兴任务学习提供了新思路。

Oct, 2019

基于 BERT 的排名模型中迁移学习和伪标签的系统评估

本研究系统评估了基于 BERT 的神经排序模型在五个英语数据集中的迁移能力，发现使用伪标签训练可以产生与迁移学习相媲美或更好的模型，但需要改进少样本训练的稳定性和 / 或有效性。

Mar, 2021