序列标注:实用方法
本研究提出了一种新颖的神经网络框架,将预先训练好的字级知识和字符感知神经语言模型相结合,利用转移学习技术实现不依赖于额外监督信号的序列标注任务,并在基准数据集上通过大量实验验证了其有效性和高效性。
Sep, 2017
本文研究了构建有效和高效神经序列标记系统的设计挑战,通过复现 12 个模型,在三个基准测试中进行系统模型比较,消除现有文献中的误解和不一致的结论,并得出了一些对从业者有用的实用结论。
Jun, 2018
本文提出了一种序列标注框架,采用辅助训练目标,并通过学习预测数据集中每个词周围的单词进行语言建模,以此学习通用的语义和语法组合模式,并在不需要额外标注或未标注数据的情况下,实现在多个序列标注任务上取得一致的性能提升。
Apr, 2017
本文提出了一种新颖的神经网络体系结构,该体系结构利用了双向 LSTM,CNN 和 CRF 的组合,自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估,即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55%,命名实体识别的 F1 值为 91.21%。
Mar, 2016
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
使用 BERT 嵌入 BiLSTM,发现将整个句子表示策略性地集成到每个单元格的句子表示中,可显著提高序列标注任务的 F1 得分和准确性。在包含 9 个数据集的序列标注任务中,涵盖了命名实体识别(NER)、词性标注和端到端基于方面的情感分析(E2E-ABSA),所有数据集的 F1 得分和准确率都有显著提高。
May, 2023
我们提出了一种实用的方案来训练一个单一的多语言序列标注模型,这个模型在单个 CPU 上运行,能够给出最先进的结果,足够小和快速。从一个公共的多语言 BERT 检查点开始,我们的最终模型比最先进的多语言基线模型更加准确,并且速度更快,6 倍更小。我们证明了我们的模型特别是在低资源语言上表现出色,并且可以在混合输入文本上工作,而不需要对混合示例进行明确的训练。我们通过 70 棵树库和 48 种语言的词汇标注和形态预测来展示我们方法的有效性。
Aug, 2019
本文研究使用基于 BiLSTM 的序列标注方法重构了依存句法分析,并通过在 PTB 和 UD 树库样本上的实验,证明该方法在速度和准确性之间提供了很好的平衡,结果与更复杂的方法相当竞争力。
Feb, 2019
该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法,并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。
Oct, 2020
本文提出了多语言语言模型与深度语义对准(MLMA),用于产生跨语言标注的语言无关表示,方法不需要平行数据或一个词一个词匹配,只需要单语语料库,并利用深度上下文表示。实验结果表明,本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。
Oct, 2019