本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
Dec, 2018
本研究中,我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包,并开发了两个新的越南语 POS 标记器,然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较,我们发现,利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外,研究结果还表明,基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。
Jun, 2022
本文介绍了使用多语言 BERT 嵌入和一些新的神经模型,提高越南语序列标记任务的研究。我们提出了新的模型架构,在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法,并实现了新的最先进结果。
Jun, 2020
提出了一种名为 SpanSegTag 的神经模型,采用跨度标记跟踪每个中文单词和其分词标记的概率,利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征,在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。
Dec, 2021
通过利用超标记特征,利用基于转移的依赖句法分析方法来改善依赖分析,并在越南依赖树库上成功提高了正确附着率。
Nov, 2019
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
本文提出了用于中文分词和词性标注任务的特征丰富的神经模型,使用卷积和池化层模拟传统离散特征模型的特征模板,并结合循环层使用长距离依赖信息。实验结果表明,该模型的效果显著。
Nov, 2016
本研究探讨了对于越南情感分类是否需要进行分词的问题,提出了五个使用不同分词工具预处理的越南文本的预先训练模型并通过实验结果表明使用传统的分类器无需进行分词,但在使用 BPE 方法和深度学习模型前需要进行分词,而 RDRsegmenter 是最稳定的工具。
Jan, 2023
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020
本文提出了一种基于单一分类涟漪向下规则方法的越南语词分割方法,该方法通过存储规则和只在现有规则给出的分割错误的基础上添加新规则来实现;在基准越南树库上的实验结果表明,与先前的 JVnSegmenter、vnTokenizer、DongDu 和 UETsegmenter 等最先进的方法相比,我们的方法在准确性和性能速度两方面均有所提高。
Sep, 2017