利用弱监督生成印尼保护数据集

Oct, 2023

Utilizing Weak Supervision To Generate Indonesian Conservation Dataset

Mega Fransiska, Diah Pitaloka, Saripudin, Satrio Putra, Lintang Sutawika

TL;DR利用弱监督方法快速构建印尼自然语言处理数据集，通过使用标注函数生成软标签数据集，进行多类别分类和情感分类的基准实验，得到了相应的测试性能结果，并提供了数据集和标注函数以供进一步研究和探索。

Abstract

weak supervision has emerged as a promising approach for rapid and large-scale dataset creation in response to the increasing demand for accelerated →

weak supervision dataset creation nlp development indonesian nlp dataset baseline experiments

发现论文，激发创造

利用薄弱的社交监督检测假新闻

本文探讨如何利用社交媒体生成弱社交监督来缓解标签数据的匮乏问题，并以社交媒体上的假新闻检测为例，展示了弱社交监督在面对标记数据问题时的有效性，为其他新兴任务学习提供了新思路。

Oct, 2019

AutoWS: 文本分类自动化弱监督框架

提出了 AutoWS 框架用于增加弱监督过程的效率，减少对领域专家的依赖性，使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签，然后通过一个下游歧别分类器将其聚合成概率标签。

Feb, 2023

利用质量加权的弱监督自动标注共同提高语言理解和生成能力

本研究提出了一种半监督框架，利用 GPT-2 模型自动构建了大规模数据，并根据估计的标签质量调整模型参数更新，实现 NLG 和 NLU 模型的联合训练，证明在数据稀缺场景下，该弱监督培训范式是一种有效的方法，在 E2E 和天气基准测试上优于基准系统。

Feb, 2021

利用大量弱监督数据进行多语言情感分类

本文提出了一种新的多语言情感分类方法，使用了大量的弱监督数据训练多层卷积网络，通过在多种语言数据集上进行充分的评估，证明该方法的优异性能，达到了同类研究的最高水平。

Mar, 2017

跨数据集弱监督仇恨言论分类

本篇论文提出了一种基于极弱监督策略的方法以解决仅存在于部分数据集的种族主义言辞（HS）的识别问题，并探究了 HS 分类模型泛化能力不佳的原因。

May, 2023

DeeperDive: 弱监督在文档理解中的不合理有效性 —— 与 UiPath Inc 合作的案例研究

本研究展示了通过弱监督学习以及利用 PDF 格式长文档的技术挑战，通过构建长文档理解系统，仅使用小型数据集和团队，便可在短时间内构建出 8 个高质量的自然语言理解模型，并取得了最优效果。

Aug, 2022

通过弱间接监督创建训练集

该研究论文提出了 Weak Indirect Supervision (WIS) 这一问题，还设计了一种基于概率建模的 PLRM 方法来解决监督数据输出空间不匹配的问题。PLRM 方法在图像分类、文本分类和工业广告应用中均表现出超过基线模型 2% ~ 9% 的优势。

Oct, 2021

神经文本分类的去噪多源弱监督训练

研究了在没有任何标注数据的情况下，通过多种易于提供的规则作为多种弱监督源，学习神经文本分类器的问题，提出了一种标签降噪器，它使用条件软注意机制估计源的可靠性，然后通过聚合注释的弱标签降低标签噪声，然后使用这些清理过的伪标签来训练神经分类器。在情感，主题和关系分类的五个基准测试上进行了评估，结果表明，该模型始终优于最先进的弱监督和半监督方法，并且即使没有任何标注数据，也可以达到与全监督方法相当的性能水平。

Oct, 2020

循环中的语言模型：将提示融入弱监督

本研究提出使用大型预训练语言模型进行弱监督学习的策略，并使用 Snorkel 系统去噪声标签，得到的训练数据可提高分类器的准确性，相比于零样本方法，错误率平均降低 19.5%。此外，该方法所得分类器的准确度相当或高于手动设置的规则。

May, 2022

通用弱监督

该研究提出了一种通用的技术，以实现对任何标签类型的弱监督，同时仍提供实用灵活性、计算效率和理论保证，并应用于以往没有使用弱监督框架解决的重要问题，包括排序学习、回归和超似曲空间中的学习。

Dec, 2021