Bhāṣācitra：南亚方言地理的可视化

ACLMay, 2021

Bhāṣācitra：南亚方言地理的可视化

Bhā$\unicode{x1E63}$ācitra: Visualising the dialect geography of South Asia

Aryaman Arora, Adam Farris, Gopalakrishnan R, Samopriya Basu

TL;DR该研究介绍了 Bhāṣācitra—— 一个面向南亚的方言映射系统，可用于语言覆盖分析和数据可视化，旨在为南亚语言学家提供交互式参考书目。

Abstract

We present Bh\=a$\unicode{x1E63}$\=acitra, a dialect mapping system for South Asia built on a database of linguistic studies of languages of the region annotated for topic and location data. We analyse language coverage and look towards applications to →

bhāṣācitra dialect mapping system south asia typology interactive bibliography

发现论文，激发创造

南亚的计算历史语言学和语言多样性

本文探讨了南亚语言技术中的数据散布问题，并提出研究语言历史对克服这一障碍的独特作用。作者阐述了南亚 NLP 和历史 - 比较语言学交叉领域的最新发展，并提出了打破数据壁垒的新策略。

Mar, 2022

自动识别接近的印度语言：资源和实验

本文讨论了一个自动语言识别系统的尝试，该系统用于印度 5 种密切相关的印度雅利安语言：阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库，编译了这些语言的长度不同的语料库。使用这些语料库，开发了一个语言识别系统，目前的准确率为 96.48％。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性，这是这些语言亲和度首个基于数据的研究。

Mar, 2018

印度低资源语言的带注释语音语料库：Awadhi、Bhojpuri、Braj 和 Magahi

本文介绍我们正在进行的工作，使用语言学数据收集的领域方法，为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法，大部分是在 COVID-19 疫情期间进行的，目的之一是为讲这些语言的低收入群体提供额外的收入来源，并讨论了这些语言的自动语音识别系统的基线实验结果。

Jun, 2022

使用拉丁字母编写的南亚语言处理：Dakshina 数据集

该论文介绍了 Dakshina 数据集，包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据，并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。

Jul, 2020

Jambu 南亚语言历史语言数据库

Jambu 是一个统一了许多之前资源的、结构化和易于获取的南亚语言同源数据库，它包含来自 602 个方言的 287,000 个词元，这些词元分成了 23,000 个同源集。我们概述了必要的数据处理方法，并针对数据的印度 - 雅利安子集训练了反射预测的神经模型。我们希望 Jambu 成为所有历史语言学家和印度学家的宝贵资源，并期待进一步改进和扩展数据库。

Jun, 2023

从拓扑学观点看语言学

该研究描述了一种分析南美洲语言的拓扑形状的工作流程，通过应用多重对应分析技术和拓扑数据分析方法，解决了语言学中普遍存在的分类值数据库数据可视化困难的问题。

Mar, 2024

Vashantor：用于孟加拉区域方言自动翻译到孟加拉语的大规模多语种基准数据集

本研究通过创建一个包含 32,500 个句子的语料库，涵盖孟加拉地区的 5 种地方性孟加拉方言，提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示，孟加拉地区方言的 BLEU 得分最高为 69.06，Chittagong 地区方言的 BLEU 得分最低为 36.75，Mymensingh 地区方言的平均词错误率最低为 0.1548，Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测，使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查，并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。

Nov, 2023

Anubhuti -- 一份用于孟加拉短篇小说情感分析的标注数据集

该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库，其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。

Oct, 2020

常见孟加拉手写字母的大型多目标数据集

本研究提出了一种基于字形标注方案来线性切分字形组成部分的标注方法，给出了一份孟加拉语手写字母片段的数据集，用于测试视觉算法的多目标字形分类，结果表明，深度学习方法可以推广到许多字典之外的字形。

Oct, 2020

使用区域性方言将孟加拉文字转写为国际音标的方法

该论文介绍了一种将孟加拉语文本准确转录为国际音标的方法，通过在输入序列之前加入地区标记，模型能够理解每个地区的独特语音模式，实验证明该方法在处理多样化语音变化的语言中具有显著效果。

Mar, 2024