一个特征丰富的神经模型用于中文分词和词性标注
提出了一种名为 SpanSegTag 的神经模型,采用跨度标记跟踪每个中文单词和其分词标记的概率,利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征,在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。
Dec, 2021
本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
Dec, 2018
本文提出了基于卷积神经网络的、能够自动获取丰富 n-gram 特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在 PKU 和 MSR 两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和 LSTM 语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本文研究利用神经网络模型共同训练中文社交媒体的命名实体识别(NER)和分词(word segmentation)任务,与之前的研究相比,使用 LSTM-CRF 模型得到了将近 5% 的显著提高。
Mar, 2016
本文提出了使用基于转移的神经网络联合进行词性标注和依存分析的方法,实现了标签冲突、移位 / 归约冲突和标记冲突的解决。实验表明,我们的方法在各种自然语言的联合词性标注和依存分析方面明显优于之前的方法。
Apr, 2017
本研究提出了一种贪心神经分词器,利用平衡的词和字符嵌入输入来增强现有模型的计算效率,并能在中文基准数据集上以非常高的速度和更高的准确率执行分词,从而实现真正的端到端分词。
Apr, 2017
我们提出了一个基于字符的模型来同时进行中文分词和词性标注,该模型采用双向 RNN-CRF 架构进行序列标记,并利用捕捉丰富上下文信息和低于字符级别的特征的新型向量表示的汉字。实验结果表明,我们的模型在不同大小、文体和注释方案的数据集上都很准确和稳健,在 CTB5 上实现了最佳性能,联合分词和词性标注的 F1 分数达到了 94.38。
Apr, 2017
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017