Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别

May, 2023

Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别

Bhasha-Abhijnaanam: Native-script and romanized Language Identification for 22 Indic languages

Yash Madhani, Mitesh M. Khapra, Anoop Kunchukuttan

TL;DR我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别（LID）数据集和模型，并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。

Abstract

We create publicly available language identification (LID) datasets and models in all 22 indian languages listed in the Indian constitution in both native-script and →

indian languages language identification romanized text indiclid training data

发现论文，激发创造

RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言（尤其是使用非拉丁文字的语言）的挑战，并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力，既提高了推理效率，又在有限的预训练情况下取得了竞争性的性能，同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力，未来的工作将致力于将这种方法扩展到更多的语言和任务。

Jan, 2024

使用拉丁字母编写的南亚语言处理：Dakshina 数据集

该论文介绍了 Dakshina 数据集，包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据，并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。

Jul, 2020

用于印地语书写的跨语言词汇识别和定位框架

提出了一种新的跨语言平台，用于手写单词识别和标记低资源脚本，其中使用可用脚本（考虑为源脚本）的充分大的数据集进行训练，并在其他脚本（考虑为目标脚本）上进行测试，该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习，成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。

Dec, 2017

自动识别接近的印度语言：资源和实验

本文讨论了一个自动语言识别系统的尝试，该系统用于印度 5 种密切相关的印度雅利安语言：阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库，编译了这些语言的长度不同的语料库。使用这些语料库，开发了一个语言识别系统，目前的准确率为 96.48％。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性，这是这些语言亲和度首个基于数据的研究。

Mar, 2018

通用脚本语言识别

我们提出使用多种实验策略（放大、扁平化和混合脚本）来学习与脚本无关的表示，重点关注四种主要的德拉维达语言（泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语），发现在下游的不以脚本为依据的语言识别中，词级脚本随机化和暴露于多个脚本书写的语言对于维持竞争性自然文本性能也非常有价值。

Jun, 2024

多语种印度文字的光学脚本识别

该研究论文调查了脚本识别和文本识别的现有方法和技术，并讨论了在处理和识别脚本方面的技术改进，特别是针对印度的 12 种主要印度文字的复杂特征和高级预处理方法。

Aug, 2023

比较达罗毗荼语言识别方法

本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容，包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验，以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。

Mar, 2021

一种从印度语到巴哈蒂盲文字符的文本翻译模型

本文提出了一种将印度主要语言转换为 Bharti 盲文的方案，该系统采用混合方法，使用基于规则和基于 LSTM 的模型，测试结果表明该模型的准确性接近实际。

May, 2023

基于机器学习的印度口语识别概述

本文综合评述了印度口语识别领域的研究现状及其面临的独特挑战，探讨了可用的语音语料库、已有的研究成果和未来的研究方向，有助于了解该领域现状和发展趋势。

Nov, 2022

MATra：一种印度文字跨语言注意力音译系统

本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型，可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration，同时在精度方面显著优于所有现有模型，在 Top-1 精度得分方面高达 80.7％，比最好的结果提高了 29.5％，并在语音准确性方面达到了 93.5％。

Aug, 2022