联合中文分词和依存句法分析的基于图的模型
提出了一种方法,通过将额外标签添加到语法分析树中的每个中文字符,来联合进行中文分词和基于跨度的语法成分分析,实验证明该算法在 CTB5.1 上优于最近的联合分词和语法成分分析模型。
Nov, 2022
提出了一种名为 SpanSegTag 的神经模型,采用跨度标记跟踪每个中文单词和其分词标记的概率,利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征,在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。
Dec, 2021
本研究提出了一种新型的神经网络模型,该模型可以同时学习 POS 标记和基于图的依赖解析。该模型使用双向 LSTM 来学习两个任务共享的特征表示,从而解决了特征工程问题。该模型在 19 种语言的通用依赖关系项目上进行了广泛的实验,结果表明我们的模型优于基于神经网络的最新关于 POS 标记和基于转移的依赖解析的程序,从而取得了新的最优性能。
May, 2017
本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
Dec, 2018
该论文提出了一种由词级依赖树转变为字级依赖解析的方法,通过模型化字内的潜在内部结构,在每个词级依赖树中解释为一棵以字级树为基础的森林,采用约束 Eisner 算法确保字级树的兼容性,确保了单一的字内结构根节点,并建立了这些根节点之间的词间依赖关系。对中文树库的实验表明,我们的方法在流水线框架和之前的联合模型上具有优越性。详细分析显示,粗到精的解析策略使模型能够预测出更具语言学可行性的字内结构。
Jun, 2024
本研究提出了一种新的基于依存的混合树模型,将自然语言转换成机器可解释的含义表示,并通过在标准多语言 GeoQuery 数据集上进行的大量实验证明,我们的方法能够在多种语言上实现最先进的性能。
Sep, 2018
本文提出了用于中文分词和词性标注任务的特征丰富的神经模型,使用卷积和池化层模拟传统离散特征模型的特征模板,并结合循环层使用长距离依赖信息。实验结果表明,该模型的效果显著。
Nov, 2016
我们提出了一个基于字符的模型来同时进行中文分词和词性标注,该模型采用双向 RNN-CRF 架构进行序列标记,并利用捕捉丰富上下文信息和低于字符级别的特征的新型向量表示的汉字。实验结果表明,我们的模型在不同大小、文体和注释方案的数据集上都很准确和稳健,在 CTB5 上实现了最佳性能,联合分词和词性标注的 F1 分数达到了 94.38。
Apr, 2017
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017