通过通用依存语法镜头观察德拉维达语系

Jun, 2024

通过通用依存语法镜头观察德拉维达语系

Dravidian language family through Universal Dependencies lens

Taraka Rama, Sowmya Vajjala

TL;DR该研究论文探讨了通用依存分析项目的跨语言一致性依存标注，以及针对达拉维安语系的形态和句法特征如何在通用依存分析框架中进行标注。

Abstract

The universal dependencies (UD) project aims to create a cross-linguistically consistent dependency annotation for multiple languages, to facilitate multilingual NLP. It currently supports 114 languages.

universal dependencies cross-linguistic consistency dependency annotation dravidian languages morphological and syntactic features

发现论文，激发创造

通用依存关系 v2：一个不断增长的多语言树库集合

该研究介绍了 Universal Dependencies 的第二个版本，其中包括词汇分析、词形还原、标准化标记和句法关系，适用于 90 种语言，以及主要变化（UD v1 到 UD v2）的讨论。

Apr, 2020

奥里亚语通用依存树库

本文提供第一个公开的 Odia 语言树库，并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源，有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器，并对 Odia 的 UD 树库进行了简要的语言分析。

May, 2022

为 Magahi 和 Braj 开发通用依存树库

本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks，包含 945 个 Magahi 句子和约 500 个 Braj 句子，标注他们的词形、词性、形态学特征和通用依存关系，描述了这两种语言中不同的依存关系，并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。

Apr, 2022

IruMozhi：自动分类泰米尔双语现象

释放了一个人工注释的文学和口语泰米尔语的平行文本数据集（IruMozhi），用于训练分类器以识别文本所属的语言版本，以评估口语泰米尔语的预训练数据的可用性，并促进未来对不同版本的工作。

Nov, 2023

通用依赖和通用形态的融合

研究对比了 Universal Dependencies 和 Universal Morphology 计划，通过提出一种从 Universal Dependencies v2 特征映射到 UniMorph 结构的确定性映射，从而消除了两个项目之间的兼容性问题，并给出了两个注释项目的基础、优势和劣势的关键评估。

Oct, 2018

比较达罗毗荼语言识别方法

本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容，包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验，以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。

Mar, 2021

通用语义解析

UDepLambda 是一个语义接口，它将自然语言映射到逻辑形式，可以处理依存图，并在自然语言理解中表现出色，对于多语言问题回答有很好的性能。

Feb, 2017

印度德拉维达语系自监督机器翻译

本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用，并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据，建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可选择相似的辅助语言来实现 UNMT，可以产生较好的效果。

Mar, 2021

PICT@DravidianLangTech-ACL2022：德拉维达语言的神经机器翻译

本文介绍了关于南印度德拉维达语系机器翻译的研究成果，通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练，我们在其中三项子任务中名列第一，并以 BLEU 分数作为评估指标测试了模型的准确性。

Apr, 2022

口语对话系统的依存句法分析

本研究提出了一种名为 SCUD 的新的语言依存注释标准，并提供了 ConvBank 数据集，以用于在人机对话方面训练依存句法分析模型。实验表明，将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果，达到了 85.05％的未标注和 77.82％的标注连接准确率。

Sep, 2019