从天城文转写为波斯 - 阿拉伯文之间的信德语转写

May, 2023

从天城文转写为波斯 - 阿拉伯文之间的信德语转写

Towards Transliteration between Sindhi Scripts from Devanagari to Perso-Arabic

PDF

Shivani Singh Rathore, Bharti Nathani, Nisheeth Joshi, Pragya Katyayan, Chander Prakash Dadlani

TL;DR本文提出脚本转换（音译）技术，可将德瓦那加里文的信迪文本转换为波斯阿拉伯文，实现了 99.64% 的整体精度。

Abstract

In this paper, we have shown a script conversion (transliteration) technique that converts sindhi text in the →

script conversion transliteration sindhi devanagari perso-arabic

发现论文，激发创造

波斯阿拉伯文：用于操纵波斯阿拉伯文字符的软件

本文介绍了一个开源软件库，为操作使用波斯 - 阿拉伯字母表的语言的书写系统提供了一组有限状态转移器（FST）组件和相应的实用工具，包括各种级别的脚本标准化、简便的拼音和音译功能。我们还提供了一对多的 Unicode 编码点到使用这些点的语言的映射，以提供处理接近于十亿人使用的字母表的脚本家族的统一框架。

Jan, 2023

基于规则的库尔德文转写系统

本研究使用基于规则的方法将 Sorani Kurdish 的两种正字法进行翻译，并提出了有关 Sorani Kurdish 翻译的新颖想法，其翻译系统 Wergor 的整体精度为 82.79％，对双重字符的检测精度超过 99％，并提供了一个手动翻译的库。

Nov, 2018

MATra：一种印度文字跨语言注意力音译系统

本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型，可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration，同时在精度方面显著优于所有现有模型，在 Top-1 精度得分方面高达 80.7％，比最好的结果提高了 29.5％，并在语音准确性方面达到了 93.5％。

Aug, 2022

英语到旁遮普语的基于规则的音译方案

本文采用基于规则的方法对英 - 旁遮普语进行机器音译，通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量，同时进行音节划分。

Jul, 2013

波斯 - 阿拉伯文的书写规范化

本文讨论了波斯 - 阿拉伯文字在自然语言处理方面的挑战，强调了正规化对于脚本变异的重要性，并对 8 种语言的机器翻译和统计语言建模任务的性能进行了评估。结果表明，大多数条件下应用正规化可以显着提高性能，并指出了在语言资源匮乏的情况下，更好地理解和呈现区域正字传统内波斯 - 阿拉伯脚本变化对于现代计算机自然语言处理技术的进一步发展至关重要

Oct, 2022

使用拉丁字母编写的南亚语言处理：Dakshina 数据集

该论文介绍了 Dakshina 数据集，包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据，并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。

Jul, 2020

一种从印度语到巴哈蒂盲文字符的文本翻译模型

本文提出了一种将印度主要语言转换为 Bharti 盲文的方案，该系统采用混合方法，使用基于规则和基于 LSTM 的模型，测试结果表明该模型的准确性接近实际。

May, 2023

针对波斯 - 阿拉伯文脚本的语言识别基准测试 PALI

本文介绍了如何在 Perso-Arabic scripts 中实现语言检测。作者使用了一系列的监督技术来分类句子到他们的语言中，进而提出了一个层次模型来针对那些经常被分类器混淆的语言困境进行解决。实验结果表明了作者们得到的实现是有效的。

Apr, 2023

用于印地语书写的跨语言词汇识别和定位框架

提出了一种新的跨语言平台，用于手写单词识别和标记低资源脚本，其中使用可用脚本（考虑为源脚本）的充分大的数据集进行训练，并在其他脚本（考虑为目标脚本）上进行测试，该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习，成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。

Dec, 2017

双语社区中基础语言规范化对不充分资源语言的非常规书写的影响

本文研究在社交媒体上，通过使用建模技术，对不同语言，特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理，而这有助于提高机器翻译和语言识别等下游任务的性能。

May, 2023