TagRuler：通过演示进行跨度级别数据编程的交互式工具

WWWJun, 2021

TagRuler：通过演示进行跨度级别数据编程的交互式工具

TagRuler: Interactive Tool for Span-Level Data Programming by Demonstration

Dongjin Choi, Sara Evensen, Çağatay Demiralp, Estevam Hruschka

TL;DR本文介绍了一种名为 TagRuler 的新型工具，它可以用于没有编程知识的用户进行数据注释，并通过实验证明，使用该工具可以更高效派生出适用于处理不同 NLP span-level 注释任务的标签模型。

Abstract

Despite rapid developments in the field of machine learning research, collecting high-quality labels for supervised learning remains a bottleneck for many applications. This difficulty is exacerbated by the fact that state-of-the-art models for →

machine learning nlp weak supervision data programming span-level annotation

发现论文，激发创造

迭代数据编程扩展文本分类语料库

该研究采用数据编程方法，使用基于邻域的弱模型来扩充文本数据集，并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子，并以人为中心确认这些标记数据的过程中，不断改进新的弱模型。研究结果表明，该方法可以显著提高文本分类任务的准确性。

Feb, 2020

数据编程：快速创建大规模训练集

为解决有限数据训练集的问题，本研究提出一种名为 Data Programming 的范式，通过弱监督策略和领域启发式标注函数生成训练集，以生成模型表示训练集的标注过程并降噪，探讨数据编程在监督学习中的应用及在 TAC-KBP 数据集上的检测等实验与研究。

May, 2016

跨语言转移的令人沮丧的简单标签投影

本文分析了在 42 种语言和三个任务（问答，命名实体识别，事件抽取）上，将标注数据转换为多种语言的效果以及不同的标签投影方法，发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。

Nov, 2022

ActiveDP: 桥接主动学习和数据编程

提出 ActiveDP 框架，结合主动学习和数据编程，生成高准确性和覆盖率的标签，优于以往弱监督和主动学习方法，在不同标注预算下表现稳定。

Feb, 2024

文本数据标记的自适应规则发现

介绍了一种交互式系统 Darwin，可以协助 weakly-supervised learning 文本数据的标注规则生成。通过候选规则的自动生成和标注者的反馈机制，Darwin 可以高效地生成规则，实验结果表明 Darwin 能够比已有的方法更有效地识别出正例。

May, 2020

语义角色标注的跨度选择模型

本研究提出基于跨度的语义角色标注模型，能够直接考虑所有可能的论元跨度并为每个标签评分，模型具有允许设计和使用跨度级特征的优点。实验结果显示，本研究的集成模型在 CoNLL-2005 和 2012 数据集上实现了最先进结果，分别为 87.4 F1 和 87.0 F1。

Oct, 2018

使用语义标签传播技术进行知识库填充

本研究讨论了使用远程监督和特征标注相结合的方法解决知识库填充问题，提出了一种名为语义标签传播的方法，并在实验中显示出了显著的性能提升。

Nov, 2015

通过跨度约束，在远程监督下改进潜在树归纳

本研究提出了一种使用远程监督形式的跨度约束技术来提高无监督语法分析性能的方法。通过少量跨度约束，可以大大提高无监督分析系统 DIORA 的性能。我们的实验表明，基于实体的跨度约束可以使英语 WSJ Penn Treebank 的组成分析提高超过 5 F1，并将其扩展到任何易于实现跨度约束的领域，同时在生物医学文本方面，该方法的有效性得到了证明。

Sep, 2021

子集选择的半监督数据编程

本文提出了一种半监督的数据编程范式，使用规则 / 标注函数和半监督损失函数基于特征空间学习联合模型，此外，还研究了在联合半监督数据编程目标之上进行子集选择的模型，并在七个公开数据集上表现显著优于其他状态下的模型。

Aug, 2020

利用数据增强的方法进行法律文件的联合跨度分割和修辞角色标注

本文研究了在法律文件中识别多句子共享同一修辞角色标签的跨度分割问题，使用了半马尔可夫条件随机场模型进行标签分类，辅助三种数据增强策略，通过实验证明了该方法在提升跨度级预测度量方面的优点，需要文件中具有多句子跨度。

Feb, 2023