基于众包的序列标注中的顺序标注建模
本研究提出了一种用于聚合序列标记的贝叶斯方法,该方法通过对注释者的误差和模拟注释的困难度进行建模,有效地减少了常见的跨度注释错误。 通过在命名实体识别,信息抽取和论证挖掘方面进行 crowdsourced 数据的评估,表明我们的序列模型优于以前的现有技术,并且可以通过更有效的主动学习来降低众包成本。
Nov, 2018
该研究提出了一种名为 LA-SCA 的框架,利用序列注释中的专家间的互相不一致性来探索不确定性和歧义,从而有效地保留混淆标签信息。通过建立层次贝叶斯模型来从人群中推断出真实数据并将相对可靠的标注者分组,计算可靠标注者之间的互相不一致性来获取标签混淆信息,并在成本敏感的序列标注中加以应用。实验结果表明,该框架在从人群中推断真实数据、预测未知序列和揭示具有相似可靠性的标注者的标注模式方面均表现出竞争力。
Jan, 2023
本文提出了一种序列标注框架,采用辅助训练目标,并通过学习预测数据集中每个词周围的单词进行语言建模,以此学习通用的语义和语法组合模式,并在不需要额外标注或未标注数据的情况下,实现在多个序列标注任务上取得一致的性能提升。
Apr, 2017
本研究提出了一种新的工人选择算法,利用组合多臂老虎机方法和数据增强方法来提高序列标注任务中的注释质量和降低成本,测试结果表明该算法的效率得到了显著提高。
May, 2023
介绍了一种基于多任务可变方法的半监督序列标注模型,该模型涵盖了生成模型和判别模型,并探索了一些潜在变量配置方案,能更好地标记数据,使得在 8 个序列标注数据集中其性能优于标准的顺序基线模型,并且在无标记数据的情况下还有进一步的提升。
Jun, 2019
本文介绍了一种名为 Consensus Network 的框架,该框架可以在多个源的注释上进行训练,学习每个源的个体表征,并通过上下文注意力动态聚合源特定的知识,并最终导致反映多个源之间达成一致(共识)的模型,实验结果表明此框架在多源学习方面表现优异
Oct, 2019
通过使用通用的基于 Bi-LSTM 的神经序列标注模型,其应用于广泛的自然语言处理任务和语言,结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测,本研究在 8 个基准数据集上对其性能进行了评估,其结果在 4 个数据集上取得了最佳的表现。
Aug, 2018
依靠众包工人,数据众包平台能够高效地提供大量带标签的数据,本文提出一种名为 SuperLA 的监督标签聚合方法,不需要在推理期间进行模型更新,并且能广泛利用历史标注记录,通过对 22 个公共数据集和 11 个基准方法的比较实验发现,SuperLA 不仅在推理性能上优于所有基准方法,而且在效率方面也具有显著优势。
Nov, 2023
本文探讨了一种将语义角色标注作为序列到序列过程的新方法,使用加强的基于注意力机制和复制机制的模型,对英文数据进行 PropBank SRL,证明该模型可以解决英语数据上的 SRL 标注任务,但需要添加更多的结构解码约束来使该模型真正具有竞争力。
Jul, 2018
本研究提出了一种新颖的神经网络框架,将预先训练好的字级知识和字符感知神经语言模型相结合,利用转移学习技术实现不依赖于额外监督信号的序列标注任务,并在基准数据集上通过大量实验验证了其有效性和高效性。
Sep, 2017