skweak: NLP 弱监督简单实现
提出了 AutoWS 框架用于增加弱监督过程的效率,减少对领域专家的依赖性,使用少量标记的实例和自动创建标注函数的方法来指定嘈杂标签,然后通过一个下游歧别分类器将其聚合成概率标签。
Feb, 2023
利用弱监督方法快速构建印尼自然语言处理数据集,通过使用标注函数生成软标签数据集,进行多类别分类和情感分类的基准实验,得到了相应的测试性能结果,并提供了数据集和标注函数以供进一步研究和探索。
Oct, 2023
该研究论文展开了交互式弱监督学习框架的研究,该框架中,方法提议启发式方法并从用户每个被提议的启发式反馈中学习,其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能,而不需要访问本文中使用的标签数据。
Dec, 2020
本文探讨如何利用社交媒体生成弱社交监督来缓解标签数据的匮乏问题,并以社交媒体上的假新闻检测为例,展示了弱社交监督在面对标记数据问题时的有效性,为其他新兴任务学习提供了新思路。
Oct, 2019
本文研究弱监督学习中复杂的训练方法,发现成功的关键在于干净的验证数据,即使只用五个样本的干净数据,已有方法的优势也会被削弱,因此提出了进一步研究方向建议。
May, 2023
本研究提出了一种半监督框架,利用 GPT-2 模型自动构建了大规模数据,并根据估计的标签质量调整模型参数更新,实现 NLG 和 NLU 模型的联合训练,证明在数据稀缺场景下,该弱监督培训范式是一种有效的方法,在 E2E 和天气基准测试上优于基准系统。
Feb, 2021
本研究介绍了一种名为 SciAnnotate 的科学注释工具,可用于标注 NER 任务中的弱标签,并且提供了多个用户友好接口进行弱标签创建。我们使用多源弱标签去噪作为例,并使用 Bertifying 条件隐马尔可夫模型对弱标签进行去噪,评估结果表明使用 SciAnnotate 的弱标签去噪方法可在减少标注时间的同时提高模型召回率。
Aug, 2022
本文综述了最近在程序化弱监督(PWS)方面取得的重要进展,特别介绍了该学习范例的简要概述并回顾了在该流程内的各个组成部分的代表性方法,还讨论了解决有限标记数据方案的补充学习范式及相关方法如何与 PWS 结合使用,最后鉴定了一些在该领域中仍未被探讨的关键挑战,希望能够激发未来的研究方向。
Feb, 2022
研究了在没有任何标注数据的情况下,通过多种易于提供的规则作为多种弱监督源,学习神经文本分类器的问题,提出了一种标签降噪器,它使用条件软注意机制估计源的可靠性,然后通过聚合注释的弱标签降低标签噪声,然后使用这些清理过的伪标签来训练神经分类器。在情感,主题和关系分类的五个基准测试上进行了评估,结果表明,该模型始终优于最先进的弱监督和半监督方法,并且即使没有任何标注数据,也可以达到与全监督方法相当的性能水平。
Oct, 2020