IruMozhi:自动分类泰米尔双语现象
使用 Transformer-Transformer 架构,通过二元分类任务,将 Tamil 语言中的 Memes 分类为 Troll 和非 Troll,并通过注意力机制更好地提取特征和去除噪声。
Apr, 2021
本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容,包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验,以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。
Mar, 2021
本文介绍了关于南印度德拉维达语系机器翻译的研究成果,通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练,我们在其中三项子任务中名列第一,并以 BLEU 分数作为评估指标测试了模型的准确性。
Apr, 2022
本文分析了来自英语、韩语和泰米尔语三种具有不同韵律系统的语言的语音障碍者讲话数据集,检查反映语音质量、发音和韵律三个讲话维度的 39 个声学测量标准,提出在了解说话的可懂水平的平均声学测量值的基础上进行多语种分析,并进行自动可懂性分类以研究最佳功能集。分析表明发音特征是语言无关的测量标准,如音素正确百分比、辅音正确百分比和元音正确百分比,而声音质量和韵律特征通常呈现不同的语言特征。实验结果进一步表明,不同的语音维度在不同的语言中发挥更大的作用:英语的韵律,韩语的发音,泰米尔语的韵律和发音。这篇论文为语音病理学做出了贡献,因为它区分了英语、韩语和泰米尔语的语音障碍者可懂性分类中语言无关和语言相关的测量标准。
Sep, 2022
这篇论文概述了泰米尔语的形态和句法,侧重于其当代用法,并强调了在形态和句法特征方面泰米尔语的复杂性和丰富性,这对于分析该语言和进行比较研究的语言学家有所帮助。此外,该论文对于开发泰米尔语的计算资源也非常有用。
Jan, 2024
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本论文介绍了我们如何开发一种基于神经网络的依存解析器,即 ThamizhiUDp,它使用统一依存形式为 Tamil 文本提供完整的依存解析管道。我们考虑了依存解析管道的各个阶段并确定了每个阶段的工具和资源,以提高准确性和解决数据稀缺性等问题。ThamizhiUDp 使用了多语言训练和各种工具和资源,包括 Stanford 解析器、ThamizhiPOSt、ThamizhiMorph 和 uuparser,其表现优于当前取得的 Tamil 语言解析最佳结果
Dec, 2020
本论文介绍了 IMaSC,一个包含约 50 个小时录音的马拉雅拉姆文本和语音语料库,演示使用该数据集对每位演讲者训练的 TTS 模型较以前的研究和公开可用模型表现更好,平均意见分数为 4.50。
Nov, 2022