利用弱监督生成印尼保护数据集
本文探讨如何利用社交媒体生成弱社交监督来缓解标签数据的匮乏问题,并以社交媒体上的假新闻检测为例,展示了弱社交监督在面对标记数据问题时的有效性,为其他新兴任务学习提供了新思路。
Oct, 2019
提出了 AutoWS 框架用于增加弱监督过程的效率,减少对领域专家的依赖性,使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签,然后通过一个下游歧别分类器将其聚合成概率标签。
Feb, 2023
本研究提出了一种半监督框架,利用 GPT-2 模型自动构建了大规模数据,并根据估计的标签质量调整模型参数更新,实现 NLG 和 NLU 模型的联合训练,证明在数据稀缺场景下,该弱监督培训范式是一种有效的方法,在 E2E 和天气基准测试上优于基准系统。
Feb, 2021
本文提出了一种新的多语言情感分类方法,使用了大量的弱监督数据训练多层卷积网络,通过在多种语言数据集上进行充分的评估,证明该方法的优异性能,达到了同类研究的最高水平。
Mar, 2017
本研究展示了通过弱监督学习以及利用 PDF 格式长文档的技术挑战,通过构建长文档理解系统,仅使用小型数据集和团队,便可在短时间内构建出 8 个高质量的自然语言理解模型,并取得了最优效果。
Aug, 2022
该研究论文提出了 Weak Indirect Supervision (WIS) 这一问题,还设计了一种基于概率建模的 PLRM 方法来解决监督数据输出空间不匹配的问题。PLRM 方法在图像分类、文本分类和工业广告应用中均表现出超过基线模型 2% ~ 9% 的优势。
Oct, 2021
研究了在没有任何标注数据的情况下,通过多种易于提供的规则作为多种弱监督源,学习神经文本分类器的问题,提出了一种标签降噪器,它使用条件软注意机制估计源的可靠性,然后通过聚合注释的弱标签降低标签噪声,然后使用这些清理过的伪标签来训练神经分类器。在情感,主题和关系分类的五个基准测试上进行了评估,结果表明,该模型始终优于最先进的弱监督和半监督方法,并且即使没有任何标注数据,也可以达到与全监督方法相当的性能水平。
Oct, 2020
本研究提出使用大型预训练语言模型进行弱监督学习的策略,并使用 Snorkel 系统去噪声标签,得到的训练数据可提高分类器的准确性,相比于零样本方法,错误率平均降低 19.5%。此外,该方法所得分类器的准确度相当或高于手动设置的规则。
May, 2022
该研究提出了一种通用的技术,以实现对任何标签类型的弱监督,同时仍提供实用灵活性、计算效率和理论保证,并应用于以往没有使用弱监督框架解决的重要问题,包括排序学习、回归和超似曲空间中的学习。
Dec, 2021