IruMozhi：自动分类泰米尔双语现象

Nov, 2023

IruMozhi：自动分类泰米尔双语现象

IruMozhi: Automatically classifying diglossia in Tamil

Kabilan Prasanna, Aryaman Arora

TL;DR释放了一个人工注释的文学和口语泰米尔语的平行文本数据集（IruMozhi），用于训练分类器以识别文本所属的语言版本，以评估口语泰米尔语的预训练数据的可用性，并促进未来对不同版本的工作。

Abstract

tamil, a Dravidian language of South Asia, is a highly diglossic language with two very different registers in everyday use: Literary tamil

tamil diglossic language literary tamil spoken tamil nlp systems

发现论文，激发创造

UVCE-IIITT@DravidianLangTech-EACL2021：泰米尔语 Troll Meme 分类：你需要更多的注意力

使用 Transformer-Transformer 架构，通过二元分类任务，将 Tamil 语言中的 Memes 分类为 Troll 和非 Troll，并通过注意力机制更好地提取特征和去除噪声。

Apr, 2021

机器翻译的土鲁语资源

我们提供了第一个用于英图鲁翻译的并行数据集。我们使用该数据集开发了英图鲁机器翻译模型，并采用了转移学习方法来解决低资源语言的机器翻译开发中的障碍。

Mar, 2024

比较达罗毗荼语言识别方法

本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容，包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验，以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。

Mar, 2021

PICT@DravidianLangTech-ACL2022：德拉维达语言的神经机器翻译

本文介绍了关于南印度德拉维达语系机器翻译的研究成果，通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练，我们在其中三项子任务中名列第一，并以 BLEU 分数作为评估指标测试了模型的准确性。

Apr, 2022

使用英语、韩语和泰米尔语构建的语音数据集对失语症智力分类的多语言分析

本文分析了来自英语、韩语和泰米尔语三种具有不同韵律系统的语言的语音障碍者讲话数据集，检查反映语音质量、发音和韵律三个讲话维度的 39 个声学测量标准，提出在了解说话的可懂水平的平均声学测量值的基础上进行多语种分析，并进行自动可懂性分类以研究最佳功能集。分析表明发音特征是语言无关的测量标准，如音素正确百分比、辅音正确百分比和元音正确百分比，而声音质量和韵律特征通常呈现不同的语言特征。实验结果进一步表明，不同的语音维度在不同的语言中发挥更大的作用：英语的韵律，韩语的发音，泰米尔语的韵律和发音。这篇论文为语音病理学做出了贡献，因为它区分了英语、韩语和泰米尔语的语音障碍者可懂性分类中语言无关和语言相关的测量标准。

Sep, 2022

泰米尔语的形态与句法

这篇论文概述了泰米尔语的形态和句法，侧重于其当代用法，并强调了在形态和句法特征方面泰米尔语的复杂性和丰富性，这对于分析该语言和进行比较研究的语言学家有所帮助。此外，该论文对于开发泰米尔语的计算资源也非常有用。

Jan, 2024

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

ThamizhiUDp：泰米尔语依存句法分析器

本论文介绍了我们如何开发一种基于神经网络的依存解析器，即 ThamizhiUDp，它使用统一依存形式为 Tamil 文本提供完整的依存解析管道。我们考虑了依存解析管道的各个阶段并确定了每个阶段的工具和资源，以提高准确性和解决数据稀缺性等问题。ThamizhiUDp 使用了多语言训练和各种工具和资源，包括 Stanford 解析器、ThamizhiPOSt、ThamizhiMorph 和 uuparser，其表现优于当前取得的 Tamil 语言解析最佳结果

Dec, 2020

通过通用依存语法镜头观察德拉维达语系

该研究论文探讨了通用依存分析项目的跨语言一致性依存标注，以及针对达拉维安语系的形态和句法特征如何在通用依存分析框架中进行标注。

Jun, 2024

IMaSC -- ICFOSS 马拉雅拉姆语音语料库

本论文介绍了 IMaSC，一个包含约 50 个小时录音的马拉雅拉姆文本和语音语料库，演示使用该数据集对每位演讲者训练的 TTS 模型较以前的研究和公开可用模型表现更好，平均意见分数为 4.50。

Nov, 2022