通过通用依存语法镜头观察德拉维达语系
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行了简要的语言分析。
May, 2022
本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks,包含 945 个 Magahi 句子和约 500 个 Braj 句子,标注他们的词形、词性、形态学特征和通用依存关系,描述了这两种语言中不同的依存关系,并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。
Apr, 2022
释放了一个人工注释的文学和口语泰米尔语的平行文本数据集(IruMozhi),用于训练分类器以识别文本所属的语言版本,以评估口语泰米尔语的预训练数据的可用性,并促进未来对不同版本的工作。
Nov, 2023
研究对比了 Universal Dependencies 和 Universal Morphology 计划,通过提出一种从 Universal Dependencies v2 特征映射到 UniMorph 结构的确定性映射,从而消除了两个项目之间的兼容性问题,并给出了两个注释项目的基础、优势和劣势的关键评估。
Oct, 2018
本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容,包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验,以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。
Mar, 2021
本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用,并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据,建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可选择相似的辅助语言来实现 UNMT,可以产生较好的效果。
Mar, 2021
本文介绍了关于南印度德拉维达语系机器翻译的研究成果,通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练,我们在其中三项子任务中名列第一,并以 BLEU 分数作为评估指标测试了模型的准确性。
Apr, 2022
本研究提出了一种名为 SCUD 的新的语言依存注释标准,并提供了 ConvBank 数据集,以用于在人机对话方面训练依存句法分析模型。实验表明,将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果,达到了 85.05%的未标注和 77.82%的标注连接准确率。
Sep, 2019