联合中文分词和依存句法分析的基于图的模型

ACLApr, 2019

联合中文分词和依存句法分析的基于图的模型

A Graph-based Model for Joint Chinese Word Segmentation and Dependency Parsing

Hang Yan, Xipeng Qiu, Xuanjing Huang

TL;DR本文提出了一种基于图形的模型来集成中文分词和依赖分析，相较于之前基于转移的联合模型，我们的模型更简洁，从而在中文分词和依赖分析方面取得了更好的性能，并且当结合 BERT 时，我们的模型可以显著减少联合模型和基于黄金分割词的模型之间的性能差距。

Abstract

Chinese word segmentation and dependency parsing are two fundamental tasks for chinese natural language processing. The →

chinese natural language processing word segmentation dependency parsing graph-based model bert

发现论文，激发创造

中文分词与基于跨度的短语结构分析联合

提出了一种方法，通过将额外标签添加到语法分析树中的每个中文字符，来联合进行中文分词和基于跨度的语法成分分析，实验证明该算法在 CTB5.1 上优于最近的联合分词和语法成分分析模型。

Nov, 2022

基于二阶段跨度标注的中文分词与词性标注

提出了一种名为 SpanSegTag 的神经模型，采用跨度标记跟踪每个中文单词和其分词标记的概率，利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征，在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。

Dec, 2021

联合词性标注和基于图结构的依存句法分析的新型神经网络模型

本研究提出了一种新型的神经网络模型，该模型可以同时学习 POS 标记和基于图的依赖解析。该模型使用双向 LSTM 来学习两个任务共享的特征表示，从而解决了特征工程问题。该模型在 19 种语言的通用依赖关系项目上进行了广泛的实验，结果表明我们的模型优于基于神经网络的最新关于 POS 标记和基于转移的依赖解析的程序，从而取得了新的最优性能。

May, 2017

越南语词汇分割、词性标注和依存句法分析的神经联合模型

本文提出了一个新的多任务学习模型，用于联合越南语词语分割、词性标注和依存句法分析，并在越南基准数据集上进行了实验，结果表明本模型具有最先进或竞争性的表现。

Dec, 2018

基于潜在内部词结构建模的字符级中文依存句法分析

该论文提出了一种由词级依赖树转变为字级依赖解析的方法，通过模型化字内的潜在内部结构，在每个词级依赖树中解释为一棵以字级树为基础的森林，采用约束 Eisner 算法确保字级树的兼容性，确保了单一的字内结构根节点，并建立了这些根节点之间的词间依赖关系。对中文树库的实验表明，我们的方法在流水线框架和之前的联合模型上具有优越性。详细分析显示，粗到精的解析策略使模型能够预测出更具语言学可行性的字内结构。

Jun, 2024

基于依赖的混合树用于语义解析

本研究提出了一种新的基于依存的混合树模型，将自然语言转换成机器可解释的含义表示，并通过在标准多语言 GeoQuery 数据集上进行的大量实验证明，我们的方法能够在多种语言上实现最先进的性能。

Sep, 2018

一个特征丰富的神经模型用于中文分词和词性标注

本文提出了用于中文分词和词性标注任务的特征丰富的神经模型，使用卷积和池化层模拟传统离散特征模型的特征模板，并结合循环层使用长距离依赖信息。实验结果表明，该模型的效果显著。

Nov, 2016

使用双向 RNN-CRF 实现基于字的中文联合分词与词性标注

我们提出了一个基于字符的模型来同时进行中文分词和词性标注，该模型采用双向 RNN-CRF 架构进行序列标记，并利用捕捉丰富上下文信息和低于字符级别的特征的新型向量表示的汉字。实验结果表明，我们的模型在不同大小、文体和注释方案的数据集上都很准确和稳健，在 CTB5 上实现了最佳性能，联合分词和词性标注的 F1 分数达到了 94.38。

Apr, 2017

词嵌入和词形态的联合模型

本文介绍了一种联合模型，能够对单词进行无监督的形态分析，并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割，并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当，并且在语法类比回答任务中表现优异。最后，我们表明，将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。

Jun, 2016

基于有向无环图的长短时记忆网络用于语言分词

本文介绍了一种新型神经模型，通过在有向无环图上使用长短时记忆网络来整合单词级别信息，结合预训练的字符或单词嵌入向量，实现了比基准模型更好的中文分词表现。

Jul, 2017