去偏才能提高性能：重新审视基于简单种子的弱监督文本分类

May, 2023

去偏才能提高性能：重新审视基于简单种子的弱监督文本分类

Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak Supervision for Text Classification

Chengyu Dong, Zihan Wang, Jingbo Shang

TL;DR本文重新审视种子匹配法，表明种子匹配法的性能被低估，并提出了减轻标签偏见的简单方法，从而提高了种子匹配法的性能，使其达到甚至优于先进技术的水平。

Abstract

Recent advances in weakly supervised text classification mostly focus on designing sophisticated methods to turn high-level human heuristics into quality →

weakly supervised text classification pseudo-labels seed matching label bias

发现论文，激发创造

基于无监督误差估计的弱监督文本分类种子词的选择

本文旨在提出一种非专家确定种子词的弱监督文本分类方法，使用基于相应类别名称的候选种子词，训练过程中的中间模型会无监督地评估出候选种子词的错误率，并选出表现最佳的词汇作为最终的种子词，通过在各个数据集上的比较测试，证明该方法在二元分类任务上超过了只使用类别名称种子词的基准方法，并获得了与使用专家注释种子词相当的性能。

Apr, 2021

极弱监督文本分类基准：基于种子匹配和提示方法的调和

本文介绍了第一次在统一标准下对 SEED 和 PROMPT 两种方法进行 XWS-TC 基准测试的结果，发现两种方法都具有竞争力，SEED 更加容许人类指导的改变，更有选择性的前置训练语言模型，而且 SEED 和 PROMPT 方法具有密切联系，基于原始文本的聚类后处理步骤能够大力促进两者的表现。

May, 2023

LIME: 无种子弱监督文本分类

LIME 是一种基于蕴涵关系的伪分类方式，可取代传统脆弱的种子词生成过程，结合弱监督文本分类和文本蕴涵建模来优化分类流程，通过实验取得了史上最优结果。

Oct, 2022

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

纯净半监督学习：在只有很少标记图像的情况下进行半监督学习

本文针对有限标注信息下的半监督学习进行研究，分析了当前应用最广的半监督学习方法 FixMatch 在这种情况下的表现和局限，提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案，并在 STL-10 数据集上得到了显著提高。

Dec, 2021

利用少量关键词通过弱监督联合训练进行细粒度方面检测

本篇论文的主要研究是关于使用弱监督训练出纯文本的粒度级别用于用户生成的评论的细粒度方面分类器，并提出了基于学生 - 教师模型和迭代协同训练的方法来改进模型表现，对商品评论和餐厅评论的六个数据集，该方法模型的绝对 f1 值平均提升了 14.1 个百分点。

Sep, 2019

使用文本分类的伪相关反馈：最简单的可行之事

本文提出了一种基于文档相关性分类器的技术，使用来自经过排序的初始列表的伪标签，然后将分类器应用于重新排列检索到的文档，以解决伪相关反馈的问题。该技术可以显著提高多个新闻集合的结果，包括使用词袋模型 BM25 以及精调查询扩展模型。

Apr, 2019

通过连接高和低置信度预测增强半监督学习

提出了一种名为 ReFixMatch 的新方法，旨在利用所有未标记数据进行训练，从而提高模型的泛化能力和在半监督学习基准测试上的性能。值得注意的是，ReFixMatch 在 ImageNet 上使用 10 万个标记示例时达到了 41.05％的 top-1 准确率，优于基准 FixMatch 和目前最先进的方法。

Aug, 2023

基准或 DAER：选择性重新查询辅助信息

本文提出了种子拒绝的问题，即基于期望的性能降级来决定是否拒绝种子。提出了一种新的训练方法和评估指标，并在视点估计和细粒度分类任务中进行了实验证明，该方法可以将需要审核的种子数量降低 23% 以上。

Sep, 2020

从文本分类到生成的贝叶斯弱强弱强

当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时，本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展，模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导 WeakS-to-Strong 的泛化，并将其应用于文本生成任务，研究了更先进的监督策略，并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性，并显示其在超级对齐方面的潜力。

May, 2024