一个特征丰富的神经模型用于中文分词和词性标注

Nov, 2016

一个特征丰富的神经模型用于中文分词和词性标注

A Feature-Enriched Neural Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging

Xinchi Chen, Xipeng Qiu, Xuanjing Huang

TL;DR本文提出了用于中文分词和词性标注任务的特征丰富的神经模型，使用卷积和池化层模拟传统离散特征模型的特征模板，并结合循环层使用长距离依赖信息。实验结果表明，该模型的效果显著。

Abstract

Recently, neural network models for natural language processing tasks have been increasingly focused on for their ability of alleviating the burden of manual →

neural network models natural language processing feature engineering chinese word segmentation part-of-speech tagging

发现论文，激发创造

基于二阶段跨度标注的中文分词与词性标注

提出了一种名为 SpanSegTag 的神经模型，采用跨度标记跟踪每个中文单词和其分词标记的概率，利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征，在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。

Dec, 2021

越南语词汇分割、词性标注和依存句法分析的神经联合模型

本文提出了一个新的多任务学习模型，用于联合越南语词语分割、词性标注和依存句法分析，并在越南基准数据集上进行了实验，结果表明本模型具有最先进或竞争性的表现。

Dec, 2018

使用词嵌入的卷积神经网络用于中文分词

本文提出了基于卷积神经网络的、能够自动获取丰富 n-gram 特征的中文分词模型，并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题，经过在 PKU 和 MSR 两个基准数据集的实验，该模型在两个数据集上均表现出有竞争力的性能。

Nov, 2017

中文神经分词学习

本文提出了一种新颖的神经网络框架，利用门控组合神经网络和 LSTM 语言评分模型，消除上下文窗口，可以利用完整的分词历史，产生分布式表示，从而实现中文分词，并在基准数据集上进行实验，结果不需要使用现有方法的特征工程，获得了与现有最先进方法相当甚至更好的性能。

Jun, 2016

利用词语分割表示学习提高中文社交媒体名称实体识别

本文研究利用神经网络模型共同训练中文社交媒体的命名实体识别（NER）和分词（word segmentation）任务，与之前的研究相比，使用 LSTM-CRF 模型得到了将近 5% 的显著提高。

Mar, 2016

基于转移的神经网络联合词性标注和依存句法分析

本文提出了使用基于转移的神经网络联合进行词性标注和依存分析的方法，实现了标签冲突、移位 / 归约冲突和标记冲突的解决。实验表明，我们的方法在各种自然语言的联合词性标注和依存分析方面明显优于之前的方法。

Apr, 2017

面向中文的快速准确神经分词

本研究提出了一种贪心神经分词器，利用平衡的词和字符嵌入输入来增强现有模型的计算效率，并能在中文基准数据集上以非常高的速度和更高的准确率执行分词，从而实现真正的端到端分词。

Apr, 2017

使用双向 RNN-CRF 实现基于字的中文联合分词与词性标注

我们提出了一个基于字符的模型来同时进行中文分词和词性标注，该模型采用双向 RNN-CRF 架构进行序列标记，并利用捕捉丰富上下文信息和低于字符级别的特征的新型向量表示的汉字。实验结果表明，我们的模型在不同大小、文体和注释方案的数据集上都很准确和稳健，在 CTB5 上实现了最佳性能，联合分词和词性标注的 F1 分数达到了 94.38。

Apr, 2017

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019

基于有向无环图的长短时记忆网络用于语言分词

本文介绍了一种新型神经模型，通过在有向无环图上使用长短时记忆网络来整合单词级别信息，结合预训练的字符或单词嵌入向量，实现了比基准模型更好的中文分词表现。

Jul, 2017