Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别
本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言(尤其是使用非拉丁文字的语言)的挑战,并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力,既提高了推理效率,又在有限的预训练情况下取得了竞争性的性能,同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力,未来的工作将致力于将这种方法扩展到更多的语言和任务。
Jan, 2024
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
Jul, 2020
提出了一种新的跨语言平台,用于手写单词识别和标记低资源脚本,其中使用可用脚本(考虑为源脚本)的充分大的数据集进行训练,并在其他脚本(考虑为目标脚本)上进行测试,该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习,成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。
Dec, 2017
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018
我们提出使用多种实验策略(放大、扁平化和混合脚本)来学习与脚本无关的表示,重点关注四种主要的德拉维达语言(泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语),发现在下游的不以脚本为依据的语言识别中,词级脚本随机化和暴露于多个脚本书写的语言对于维持竞争性自然文本性能也非常有价值。
Jun, 2024
该研究论文调查了脚本识别和文本识别的现有方法和技术,并讨论了在处理和识别脚本方面的技术改进,特别是针对印度的 12 种主要印度文字的复杂特征和高级预处理方法。
Aug, 2023
本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容,包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验,以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。
Mar, 2021
本文提出了一种将印度主要语言转换为 Bharti 盲文的方案,该系统采用混合方法,使用基于规则和基于 LSTM 的模型,测试结果表明该模型的准确性接近实际。
May, 2023
本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型,可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration,同时在精度方面显著优于所有现有模型,在 Top-1 精度得分方面高达 80.7%,比最好的结果提高了 29.5%,并在语音准确性方面达到了 93.5%。
Aug, 2022