面向信息检索的基于内容的弱监督再排序

SIGIRJul, 2017

面向信息检索的基于内容的弱监督再排序

Content-Based Weak Supervision for Ad-Hoc Re-Ranking

Sean MacAvaney, Andrew Yates, Kai Hui, Ophir Frieder

TL;DR论文研究了神经排序中标记相关性判定数量巨大的问题，并提出使用弱监督来源训练排名器，然后使用过滤技术排除域外样本，实现了有效的性能改进。

Abstract

One challenge with neural ranking is the need for a large amount of manually-labeled relevance judgments for training. In contrast with prior work, we examine the use of weak supervision sources for training that

neural ranking weak supervision filtering techniques training pairs performance improvement

发现论文，激发创造

具有弱监督的神经排名模型

本文提出了使用弱监督学习方法训练神经排序模型来解决信息检索排名问题，并通过实验结果表明，基于弱标记数据的预训练可以极大地提高神经排序模型的性能。

Apr, 2017

使用弱监督进行段落排名

本文提出使用弱监督框架在神经排序任务中进行 BERT 模型的训练，通过多个弱监督信号来提高模型性能，并在两个基准数据集上实现了新的最佳性能

May, 2019

从少到多学更多：加强弱监督以实现即时检索

本文介绍了两种减少训练数据需求的方法：一种是通过众包方法生成标签，并去除有害数据；另一种则是使用学习排序模型生成训练数据。这些方法使我们要比以前更少的训练数据即可超越无监督基准的表现。

Jul, 2019

使用弱监督的神经网络排名：寻找用于事实检查的句子

本研究提出了基于神经网络的句子排名模型，在选择句子时考虑了其语法依赖和语义表达，并使用弱监督技术进行了大规模训练，结果表明模型的效果在多个评价指标上均优于现有基线方法，通过实证分析发现值得检查的句子中的语法依赖项相较于非检查句子具有明显的重叠规律。

Mar, 2019

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

神经文本分类的去噪多源弱监督训练

研究了在没有任何标注数据的情况下，通过多种易于提供的规则作为多种弱监督源，学习神经文本分类器的问题，提出了一种标签降噪器，它使用条件软注意机制估计源的可靠性，然后通过聚合注释的弱标签降低标签噪声，然后使用这些清理过的伪标签来训练神经分类器。在情感，主题和关系分类的五个基准测试上进行了评估，结果表明，该模型始终优于最先进的弱监督和半监督方法，并且即使没有任何标注数据，也可以达到与全监督方法相当的性能水平。

Oct, 2020

交互式弱监督：学习用于数据标注的有用启发式方法

该研究论文展开了交互式弱监督学习框架的研究，该框架中，方法提议启发式方法并从用户每个被提议的启发式反馈中学习，其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能，而不需要访问本文中使用的标签数据。

Dec, 2020

弱监督自训练

本文提出一种基于弱监督、自训练、规则注意力网络和半监督学习的框架（ASTRA），利用所有可用数据来进行深度学习任务的训练，证明其在文本分类上有显著优势。

Apr, 2021

在问答系统中使用弱监督和数据增强

研究探讨了弱监督和数据增强在训练深度神经网络问答模型中的作用，利用结构化文摘和信息检索算法 BM25 生成标签，通过信息检索技术和词汇数据库增强训练数据，应用课程学习进行领域自适应和逐步微调问答模型来回答关于 COVID-19 的问题。

Sep, 2023

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018