Bhāṣācitra:南亚方言地理的可视化
本文探讨了南亚语言技术中的数据散布问题,并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚 NLP 和历史 - 比较语言学交叉领域的最新发展,并提出了打破数据壁垒的新策略。
Mar, 2022
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018
本文介绍我们正在进行的工作,使用语言学数据收集的领域方法,为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法,大部分是在 COVID-19 疫情期间进行的,目的之一是为讲这些语言的低收入群体提供额外的收入来源,并讨论了这些语言的自动语音识别系统的基线实验结果。
Jun, 2022
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
Jul, 2020
Jambu 是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库,它包含来自 602 个方言的 287,000 个词元,这些词元分成了 23,000 个同源集。我们概述了必要的数据处理方法,并针对数据的印度 - 雅利安子集训练了反射预测的神经模型。我们希望 Jambu 成为所有历史语言学家和印度学家的宝贵资源,并期待进一步改进和扩展数据库。
Jun, 2023
本研究通过创建一个包含 32,500 个句子的语料库,涵盖孟加拉地区的 5 种地方性孟加拉方言,提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示,孟加拉地区方言的 BLEU 得分最高为 69.06,Chittagong 地区方言的 BLEU 得分最低为 36.75,Mymensingh 地区方言的平均词错误率最低为 0.1548,Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测,使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查,并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。
Nov, 2023
该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库,其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。
Oct, 2020
本研究提出了一种基于字形标注方案来线性切分字形组成部分的 标注方法,给出了一份 孟加拉语手写字母片段的数据集,用于测试视觉算法的多目标字形分类,结果表明,深度学习方法可以推广到许多字典之外的字形。
Oct, 2020
该论文介绍了一种将孟加拉语文本准确转录为国际音标的方法,通过在输入序列之前加入地区标记,模型能够理解每个地区的独特语音模式,实验证明该方法在处理多样化语音变化的语言中具有显著效果。
Mar, 2024