通过检索增强的多阶段训练实现弱监督科学文档分类

SIGIRJun, 2023

通过检索增强的多阶段训练实现弱监督科学文档分类

Weakly-Supervised Scientific Document Classification via Retrieval-Augmented Multi-Stage Training

Ran Xu, Yue Yu, Joyce C. Ho, Carl Yang

TL;DR本研究提出了一种弱监督方法 (WANDER) 用于科学文献分类，使用标签名称作为唯一标注，利用稠密检索匹配方式捕捉标签名称的语义，并设计标签名称扩展模块来丰富标签名称的表示，最后使用自我训练步骤来细化预测，该方法在三个数据集上的表现优于最佳基准线约 11.9％。

Abstract

scientific document classification is a critical task for a wide range of applications, but the cost of obtaining massive amounts of human-labeled data can be prohibitive. To address this challenge, we propose a weakly-supervised approach for →

scientific document classification weakly-supervised approach dense retrieval label name expansion self-training

发现论文，激发创造

用弱标注数据学习的低资源命名标记

该研究提出了一种基于弱标注数据的名字标注神经模型，通过使用 Partial-CRFs 等技术，有效地解决了低资源语言或领域中不足的培训数据问题，并在五种低资源语言和细粒度的食品领域上表现出显著的性能和效率改善。

Aug, 2019

全文科学论文的弱监督多标签分类

本研究提出了一种使用交叉文献网络结构和文内层级结构进行弱监督下的全文科学论文分类的框架 (FUTEX)，具有网络感知对比微调模块和层次感知聚合模块，实验结果表明它显著优于具有竞争力的基线，并且可以与使用 1000 到 60000 真实标签样本的完全监督分类器相媲美。

Jun, 2023

使用弱标签的域自适应语义分割

论文提出一个新框架，使用 image-level weak labels，引入了 category-wise alignment 来实现 domain adaptation 中 feature alignment 和 pseudo-labeling 的相互作用，实验结果表明在 UDA 和 WDA 上都有显著的提高。

Jul, 2020

小规模强标注数据和大规模弱标注数据的命名实体识别

本文提出了一种多阶段计算框架，名为 NEEDLE，通过采用弱标签完成、噪声感知丢失函数和有强力标签的最终微调等三种关键要素，有效抑制了弱标签的噪音，提高了 Biomedical NER 的性能。

Jun, 2021

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

无标记数据下的命名实体识别：一种弱监督方法

文章提出了一种简单但有效的方法，通过弱监督机制在没有标注数据的情况下学习 NER 模型，该方法使用广泛的标注功能对目标域中的文本进行自动注释，然后通过隐马尔可夫模型将这些注释合并在一起，从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估（CoNLL 2003 和来自路透社和彭博社的新闻文章），相比于域外神经 NER 模型，在实体级别的 F1 得分上取得了约 7 个百分点的提升。

Apr, 2020

具有弱监督的神经排名模型

本文提出了使用弱监督学习方法训练神经排序模型来解决信息检索排名问题，并通过实验结果表明，基于弱标记数据的预训练可以极大地提高神经排序模型的性能。

Apr, 2017

WADER 参加 SemEval-2023 任务 9：一种弱标注框架用于文本回归任务中的数据增强

本文提出一种名为 WADER 的基于弱标签的数据增强策略，旨在解决文本回归任务中的数据不平衡和数据稀缺问题，还分析了在多语言语境下优化数据增强的采样技术，结果表明 WADER 的表现优于基准模型。

Mar, 2023

通过有效的注释和表示投影进行弱监督的跨语言命名实体识别

本文提出两种弱监督的跨语言实体标识方法，分别基于注释投影和词嵌入，无需使用目标语言的人工注释数据。同时，我们设计了两种协同解码方案，将两个基于投影的方法的输出相结合，评估表明这种组合性的方法优于其他三种弱监督方法。

Jul, 2017

弱监督和半监督证据提取

本文介绍了一种结合少量证据注释和大量文档级别标签的新方法，用于证据提取任务，同时对两个包含证据注释的分类任务进行评估，发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。

Nov, 2020