非正式波斯通用依存树库
本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks,包含 945 个 Magahi 句子和约 500 个 Braj 句子,标注他们的词形、词性、形态学特征和通用依存关系,描述了这两种语言中不同的依存关系,并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。
Apr, 2022
本研究使用神经叠加的方法,在 Universal Dependencies 方案下构建了 Singlish 依赖树库,并将英语语法知识整合到最新的 Singlish 依赖分析器中,结果显示英语知识可以减少 25% 的错误率,使分析器的准确度为 84.47%。我们是首次在低资源语言上使用神经叠加来改善跨语言依赖解析。我们会将我们的注释和分析器提供给进一步的研究。
May, 2017
本研究提出了一种新的基于依存的混合树模型,将自然语言转换成机器可解释的含义表示,并通过在标准多语言 GeoQuery 数据集上进行的大量实验证明,我们的方法能够在多种语言上实现最先进的性能。
Sep, 2018
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
Jun, 2024
我们发布了 Galactic Dependencies 1.0,这是一个大型的合成语言集,旨在为旨在适应不熟悉的语言的 NLP 方法提供训练和开发数据。这些合成树库是通过随机排列名词和 / 或动词的从属语以匹配其他真实语言的词序从真实树库产生的。我们在论文中讨论了合成语言的有用性,逼真度,可解析性,困惑度和多样性,并进行了使用 Galactic Dependencies 的简单演示。我们发现,包括合成源语言会在一定程度上增加源池的多样性,这显著提高了大多数目标语言的结果。
Oct, 2017
研究探索了波斯语的形式风格转换,旨在将非正式的文本转化为正式的文本,保持原始含义,并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT,基于 Fa-BERT 架构,结合一致性学习和基于梯度的动态权重,增强模型对语法变化的理解,平衡损失部分,并通过新的度量标准对该模型与传统方法进行了评估,结果表明其在多个指标上的卓越性能,包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性,显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展,能够有效处理语言风格转换,从而简化内容的管理,增强数据挖掘结果,促进跨文化交流。
Jun, 2024
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
本研究通过引入泰语通用依存树库(TUD)解决了自动依存解析泰语句子的问题,并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型,在评估结果中表明大多数模型能够胜过前期研究中的其他模型,为泰语依存解析器的最佳组件选择提供了见解,并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。
May, 2024