Alfred: 一种面向提示的弱监督系统

ACLMay, 2023

Alfred: 一种面向提示的弱监督系统

Alfred: A System for Prompted Weak Supervision

Peilin Yu, Stephen Bach

TL;DRAlfred 是第一个通过自然语言提示创建机器学习训练数据的程序弱监督（PWS）系统，提供简单的 Python 接口和高吞吐量后端以进行大规模数据标注，通过优化的批处理机制，优化执行提示，使用 YouTube 评论垃圾邮件检测和宠物品种分类为例展示了其应用。

Abstract

Alfred is the first system for programmatic weak supervision (PWS) that creates training data for machine learning by prompting. In contrast to typical PWS systems where →

weak supervision machine learning natural language prompts data labeling optimized batching

发现论文，激发创造

程序化弱监督综述

本文综述了最近在程序化弱监督（PWS）方面取得的重要进展，特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法，还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用，最后鉴定了一些在该领域中仍未被探讨的关键挑战，希望能够激发未来的研究方向。

Feb, 2022

循环中的语言模型：将提示融入弱监督

本研究提出使用大型预训练语言模型进行弱监督学习的策略，并使用 Snorkel 系统去噪声标签，得到的训练数据可提高分类器的准确性，相比于零样本方法，错误率平均降低 19.5%。此外，该方法所得分类器的准确度相当或高于手动设置的规则。

May, 2022

AutoWS: 文本分类自动化弱监督框架

提出了 AutoWS 框架用于增加弱监督过程的效率，减少对领域专家的依赖性，使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签，然后通过一个下游歧别分类器将其聚合成概率标签。

Feb, 2023

基于弱监督的口语理解低资源流水线

本文提出了一种基于提示的弱监督学习方法，用于在未标记的数据上获取嘈杂的标签，并在许多口语理解任务上取得了可靠的表现，优于传统的规则方法和其他竞争性的低资源基准。

Jun, 2022

弱监督提示学习下的低资源医学图像分类探索

通过弱监督的提示学习方法 MedPrompt，自动生成医学提示并利用预训练的视觉 - 语言模型，在低资源情况下提升医学图像识别的性能和准确率。

Feb, 2024

skweak: NLP 弱监督简单实现

skweak 是一个基于 Python 的工具包，可应用于各种 NLP 任务，支持弱标注范式，可以使用从领域知识中获得的标注函数自动获取给定数据集的注释，并使用生成模型将结果聚合，以完全无监督的方式应用各种标注函数对文本数据进行分类和序列标注，尤其支持实体识别和情感分析等 NLP 任务。

Apr, 2021

通用弱监督

该研究提出了一种通用的技术，以实现对任何标签类型的弱监督，同时仍提供实用灵活性、计算效率和理论保证，并应用于以往没有使用弱监督框架解决的重要问题，包括排序学习、回归和超似曲空间中的学习。

Dec, 2021

使用提示增强的噪声 - 鲁棒自训练进行弱监督文本分类

本文提出了 PromptClass 方法，它使用预训练语言模型通过零样本提示获取基于上下文文本理解的伪标签，同时使用两种基于 PLM 微调的策略迭代地训练分类器和更新伪标签，实验结果表明，PromptClass 在四个基准数据集上实现了优异的表现，并在情感分类任务上实现了与全监督分类器相似的性能。

May, 2023

弱监督自训练

本文提出一种基于弱监督、自训练、规则注意力网络和半监督学习的框架（ASTRA），利用所有可用数据来进行深度学习任务的训练，证明其在文本分类上有显著优势。

Apr, 2021

端到端弱监督

通过聚合多个弱监督数据源，本研究提出一种直接使用神经网络重参数化概率先验标签，从而直接学习下游模型的端到端方法，取得了端模型性能和弱监督数据依赖性方面的改进。

Jul, 2021