TagRuler:通过演示进行跨度级别数据编程的交互式工具
该研究采用数据编程方法,使用基于邻域的弱模型来扩充文本数据集,并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子,并以人为中心确认这些标记数据的过程中,不断改进新的弱模型。研究结果表明,该方法可以显著提高文本分类任务的准确性。
Feb, 2020
为解决有限数据训练集的问题,本研究提出一种名为 Data Programming 的范式,通过弱监督策略和领域启发式标注函数生成训练集,以生成模型表示训练集的标注过程并降噪,探讨数据编程在监督学习中的应用及在 TAC-KBP 数据集上的检测等实验与研究。
May, 2016
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022
介绍了一种交互式系统 Darwin,可以协助 weakly-supervised learning 文本数据的标注规则生成。通过候选规则的自动生成和标注者的反馈机制,Darwin 可以高效地生成规则,实验结果表明 Darwin 能够比已有的方法更有效地识别出正例。
May, 2020
本研究提出基于跨度的语义角色标注模型,能够直接考虑所有可能的论元跨度并为每个标签评分,模型具有允许设计和使用跨度级特征的优点。实验结果显示,本研究的集成模型在 CoNLL-2005 和 2012 数据集上实现了最先进结果,分别为 87.4 F1 和 87.0 F1。
Oct, 2018
本研究提出了一种使用远程监督形式的跨度约束技术来提高无监督语法分析性能的方法。通过少量跨度约束,可以大大提高无监督分析系统 DIORA 的性能。我们的实验表明,基于实体的跨度约束可以使英语 WSJ Penn Treebank 的组成分析提高超过 5 F1,并将其扩展到任何易于实现跨度约束的领域,同时在生物医学文本方面,该方法的有效性得到了证明。
Sep, 2021
本文提出了一种半监督的数据编程范式,使用规则 / 标注函数和半监督损失函数基于特征空间学习联合模型,此外,还研究了在联合半监督数据编程目标之上进行子集选择的模型,并在七个公开数据集上表现显著优于其他状态下的模型。
Aug, 2020
本文研究了在法律文件中识别多句子共享同一修辞角色标签的跨度分割问题,使用了半马尔可夫条件随机场模型进行标签分类,辅助三种数据增强策略,通过实验证明了该方法在提升跨度级预测度量方面的优点,需要文件中具有多句子跨度。
Feb, 2023