非正式波斯通用依存树库

Jan, 2022

Informal Persian Universal Dependency Treebank

Roya Kabiri, Simin Karimi, Mihai Surdeanu

TL;DR探讨波斯语（Persian）的正式形式和非正式形式之间的音韵、形态和句法区别，提出正式形式的树库在计算模型转换到非正式形式表现糟糕的问题，并开发了基于通用依赖理论的非正式波斯语树库，研究表明现有依赖树库训练的依存分析器在跨越两个领域时表现不佳，而非正式形式的语言的独特特征更容易出现错误。

Abstract

This paper presents the phonological, morphological, and syntactic distinctions between formal and informal persian, showing that these tw

persian formal informal treebanks dependency parsers

发现论文，激发创造

制定一部波斯语非正式 - 正式语料库

构建一个包含 50,000 个句对的并行语料库，用来提取波斯语非正式语言的规范文法和字词拼写变化。

Aug, 2023

基于数据的儿童 - 家长互动解析评估

本研究提出了一个语法依存树库，用于儿童自然语言的注释和研究，分析了写作和口语之间的语言特征并探讨了儿童语言发展与句法分析器性能的关系。

Sep, 2022

为 Magahi 和 Braj 开发通用依存树库

本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks，包含 945 个 Magahi 句子和约 500 个 Braj 句子，标注他们的词形、词性、形态学特征和通用依存关系，描述了这两种语言中不同的依存关系，并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。

Apr, 2022

新加坡口语英语的通用依赖解析

本研究使用神经叠加的方法，在 Universal Dependencies 方案下构建了 Singlish 依赖树库，并将英语语法知识整合到最新的 Singlish 依赖分析器中，结果显示英语知识可以减少 25% 的错误率，使分析器的准确度为 84.47%。我们是首次在低资源语言上使用神经叠加来改善跨语言依赖解析。我们会将我们的注释和分析器提供给进一步的研究。

May, 2017

基于依赖的混合树用于语义解析

本研究提出了一种新的基于依存的混合树模型，将自然语言转换成机器可解释的含义表示，并通过在标准多语言 GeoQuery 数据集上进行的大量实验证明，我们的方法能够在多种语言上实现最先进的性能。

Sep, 2018

探索乌尔都语中的句法模式：依存分析的深度研究

通过依存句法分析技术，我们在低资源语言乌尔都语的解析中取得了重要进展，并使用复杂的特征模型和 Nivreeager 算法，获得了一定准确率并评估了解析器的错误。

Jun, 2024

银河依赖树库：通过合成新语言获得更多数据

我们发布了 Galactic Dependencies 1.0，这是一个大型的合成语言集，旨在为旨在适应不熟悉的语言的 NLP 方法提供训练和开发数据。这些合成树库是通过随机排列名词和 / 或动词的从属语以匹配其他真实语言的词序从真实树库产生的。我们在论文中讨论了合成语言的有用性，逼真度，可解析性，困惑度和多样性，并进行了使用 Galactic Dependencies 的简单演示。我们发现，包括合成源语言会在一定程度上增加源池的多样性，这显著提高了大多数目标语言的结果。

Oct, 2017

波斯语的正式风格转换

研究探索了波斯语的形式风格转换，旨在将非正式的文本转化为正式的文本，保持原始含义，并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT，基于 Fa-BERT 架构，结合一致性学习和基于梯度的动态权重，增强模型对语法变化的理解，平衡损失部分，并通过新的度量标准对该模型与传统方法进行了评估，结果表明其在多个指标上的卓越性能，包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性，显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展，能够有效处理语言风格转换，从而简化内容的管理，增强数据挖掘结果，促进跨文化交流。

Jun, 2024

爪哇语依存分析的跨语言迁移学习

本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库，提出了两种学习策略：迁移学习和分层迁移学习。结果表明，我们的最佳模型采用了分层迁移学习方法，相比基准模型，UAS 和 LAS 评估指标均提高了 10%。

Jan, 2024

泰国通用依赖树库

本研究通过引入泰语通用依存树库（TUD）解决了自动依存解析泰语句子的问题，并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型，在评估结果中表明大多数模型能够胜过前期研究中的其他模型，为泰语依存解析器的最佳组件选择提供了见解，并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。

May, 2024