skweak: NLP 弱监督简单实现

Apr, 2021

skweak: Weak Supervision Made Easy for NLP

Pierre Lison, Jeremy Barnes, Aliaksandr Hubin

TL;DRskweak 是一个基于 Python 的工具包，可应用于各种 NLP 任务，支持弱标注范式，可以使用从领域知识中获得的标注函数自动获取给定数据集的注释，并使用生成模型将结果聚合，以完全无监督的方式应用各种标注函数对文本数据进行分类和序列标注，尤其支持实体识别和情感分析等 NLP 任务。

Abstract

We present skweak, a versatile, Python-based software toolkit enabling NLP developers to apply weak supervision to a wide range of nlp tasks

skweak weak supervision nlp tasks labelling functions generative model

发现论文，激发创造

AutoWS: 文本分类自动化弱监督框架

提出了 AutoWS 框架用于增加弱监督过程的效率，减少对领域专家的依赖性，使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签，然后通过一个下游歧别分类器将其聚合成概率标签。

Feb, 2023

利用弱监督生成印尼保护数据集

利用弱监督方法快速构建印尼自然语言处理数据集，通过使用标注函数生成软标签数据集，进行多类别分类和情感分类的基准实验，得到了相应的测试性能结果，并提供了数据集和标注函数以供进一步研究和探索。

Oct, 2023

交互式弱监督：学习用于数据标注的有用启发式方法

该研究论文展开了交互式弱监督学习框架的研究，该框架中，方法提议启发式方法并从用户每个被提议的启发式反馈中学习，其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能，而不需要访问本文中使用的标签数据。

Dec, 2020

利用薄弱的社交监督检测假新闻

本文探讨如何利用社交媒体生成弱社交监督来缓解标签数据的匮乏问题，并以社交媒体上的假新闻检测为例，展示了弱社交监督在面对标记数据问题时的有效性，为其他新兴任务学习提供了新思路。

Oct, 2019

弱监督学习的批判性观察：远不及你所想的强

本文研究弱监督学习中复杂的训练方法，发现成功的关键在于干净的验证数据，即使只用五个样本的干净数据，已有方法的优势也会被削弱，因此提出了进一步研究方向建议。

May, 2023

弱监督学习的约束标注

本文提出了一种基于约束空间的弱监督学习方法，将不同的弱监督信号结合起来进行训练，在文本分类和图像分类任务中优于其他方法。

Sep, 2020

利用质量加权的弱监督自动标注共同提高语言理解和生成能力

本研究提出了一种半监督框架，利用 GPT-2 模型自动构建了大规模数据，并根据估计的标签质量调整模型参数更新，实现 NLG 和 NLU 模型的联合训练，证明在数据稀缺场景下，该弱监督培训范式是一种有效的方法，在 E2E 和天气基准测试上优于基准系统。

Feb, 2021

SciAnnotate: 一个用于整合弱标注来源的序列标注工具

本研究介绍了一种名为 SciAnnotate 的科学注释工具，可用于标注 NER 任务中的弱标签，并且提供了多个用户友好接口进行弱标签创建。我们使用多源弱标签去噪作为例，并使用 Bertifying 条件隐马尔可夫模型对弱标签进行去噪，评估结果表明使用 SciAnnotate 的弱标签去噪方法可在减少标注时间的同时提高模型召回率。

Aug, 2022

程序化弱监督综述

本文综述了最近在程序化弱监督（PWS）方面取得的重要进展，特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法，还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用，最后鉴定了一些在该领域中仍未被探讨的关键挑战，希望能够激发未来的研究方向。

Feb, 2022

神经文本分类的去噪多源弱监督训练

研究了在没有任何标注数据的情况下，通过多种易于提供的规则作为多种弱监督源，学习神经文本分类器的问题，提出了一种标签降噪器，它使用条件软注意机制估计源的可靠性，然后通过聚合注释的弱标签降低标签噪声，然后使用这些清理过的伪标签来训练神经分类器。在情感，主题和关系分类的五个基准测试上进行了评估，结果表明，该模型始终优于最先进的弱监督和半监督方法，并且即使没有任何标注数据，也可以达到与全监督方法相当的性能水平。

Oct, 2020