本研究提出使用大型预训练语言模型进行弱监督学习的策略,并使用 Snorkel 系统去噪声标签,得到的训练数据可提高分类器的准确性,相比于零样本方法,错误率平均降低 19.5%。此外,该方法所得分类器的准确度相当或高于手动设置的规则。
May, 2022
PRBoost 是一种交互式弱监督学习模型,通过迭代基于提示的规则发现和模型增强,自动发现新标签规则并生成补充弱标签,实验表明 PRBoost 在四个任务中的表现优于基线模型。
Mar, 2022
通过弱监督的提示学习方法 MedPrompt,自动生成医学提示并利用预训练的视觉 - 语言模型,在低资源情况下提升医学图像识别的性能和准确率。
Feb, 2024
本研究提出了基于生成模型的自动标注方法,通过弱监督学习去减轻手动标注的负担,取得了比现有方法更好的性能表现,提高了机器学习项目的生产效率。
Mar, 2023
本文介绍了一种用于病理全幻灯片图像分类的 few-shot 弱监督学习方法,提出了基于 prompt learning 和大型语言模型 GPT-4 的解决方案。
May, 2023
本论文探讨了在缺少数据资源的情况下,利用预先训练好的语言模型进行对话理解中的数据增强的问题,并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明,在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集,可以达到或超过现有的最佳性能。
Oct, 2022
为了让预训练语言模型(PLMs)有效理解每个类别,我们首次提出了一种新颖的基于规则的知识形式,用逻辑表达式来描述类别的含义,并开发了一种基于 PLM 的 RulePrompt 方法,包括规则挖掘模块、增强伪标签生成模块和自监督微调模块,通过这一框架,我们的方法在弱监督文本分类任务中验证了其有效性和稳健性,并明显优于最先进的方法,同时产生了可解释的类别规则,证明了在消除易混淆的类别方面的优势。
Mar, 2024
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。
Jun, 2024
本文提出了 PromptClass 方法,它使用预训练语言模型通过零样本提示获取基于上下文文本理解的伪标签,同时使用两种基于 PLM 微调的策略迭代地训练分类器和更新伪标签,实验结果表明,PromptClass 在四个基准数据集上实现了优异的表现,并在情感分类任务上实现了与全监督分类器相似的性能。
本文介绍了一种新的 PrOmpt cLass lEarning (POLE) 策略,在弱监督语义分割(WSSS)问题上实现最先进的性能,并强调了语言 - 视觉模型在 WSSS 中的优势和提示学习在该问题中的潜力。
Jun, 2023