越南依赖解析的实证研究
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020
本研究中,我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包,并开发了两个新的越南语 POS 标记器,然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较,我们发现,利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外,研究结果还表明,基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。
Jun, 2022
本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
Dec, 2018
本研究使用神经叠加的方法,在 Universal Dependencies 方案下构建了 Singlish 依赖树库,并将英语语法知识整合到最新的 Singlish 依赖分析器中,结果显示英语知识可以减少 25% 的错误率,使分析器的准确度为 84.47%。我们是首次在低资源语言上使用神经叠加来改善跨语言依赖解析。我们会将我们的注释和分析器提供给进一步的研究。
May, 2017
本研究介绍了 Baidu 依存分析器(DDParser),一个新的中文依存分析器,它是基于大规模手动标注数据集 ——Baidu 中文树库(DuCTB)训练的。DDParser 使用基于图的双仿射解析器,并对中文数据集的特征进行了调整,采用两个测试集测试,取得了 92.9%和 86.9%的标记连接分数(LAS),并取得了最先进的结果,并在 https URL 公开发布。
Sep, 2020
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了 KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模型组件的有效性。
Jan, 2019
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
Jun, 2024