通过检索增强的多阶段训练实现弱监督科学文档分类
该研究提出了一种基于弱标注数据的名字标注神经模型,通过使用 Partial-CRFs 等技术,有效地解决了低资源语言或领域中不足的培训数据问题,并在五种低资源语言和细粒度的食品领域上表现出显著的性能和效率改善。
Aug, 2019
本研究提出了一种使用交叉文献网络结构和文内层级结构进行弱监督下的全文科学论文分类的框架 (FUTEX),具有网络感知对比微调模块和层次感知聚合模块,实验结果表明它显著优于具有竞争力的基线,并且可以与使用 1000 到 60000 真实标签样本的完全监督分类器相媲美。
Jun, 2023
论文提出一个新框架,使用 image-level weak labels,引入了 category-wise alignment 来实现 domain adaptation 中 feature alignment 和 pseudo-labeling 的相互作用,实验结果表明在 UDA 和 WDA 上都有显著的提高。
Jul, 2020
本文提出了一种多阶段计算框架,名为 NEEDLE,通过采用弱标签完成、噪声感知丢失函数和有强力标签的最终微调等三种关键要素,有效抑制了弱标签的噪音,提高了 Biomedical NER 的性能。
Jun, 2021
本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。
Sep, 2018
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020
本文提出一种名为 WADER 的基于弱标签的数据增强策略,旨在解决文本回归任务中的数据不平衡和数据稀缺问题,还分析了在多语言语境下优化数据增强的采样技术,结果表明 WADER 的表现优于基准模型。
Mar, 2023
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
本文介绍了一种结合少量证据注释和大量文档级别标签的新方法,用于证据提取任务,同时对两个包含证据注释的分类任务进行评估,发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。
Nov, 2020