从天城文转写为波斯 - 阿拉伯文之间的信德语转写
本文介绍了一个开源软件库,为操作使用波斯 - 阿拉伯字母表的语言的书写系统提供了一组有限状态转移器(FST)组件和相应的实用工具,包括各种级别的脚本标准化、简便的拼音和音译功能。我们还提供了一对多的 Unicode 编码点到使用这些点的语言的映射,以提供处理接近于十亿人使用的字母表的脚本家族的统一框架。
Jan, 2023
本研究使用基于规则的方法将 Sorani Kurdish 的两种正字法进行翻译,并提出了有关 Sorani Kurdish 翻译的新颖想法,其翻译系统 Wergor 的整体精度为 82.79%,对双重字符的检测精度超过 99%,并提供了一个手动翻译的库。
Nov, 2018
本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型,可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration,同时在精度方面显著优于所有现有模型,在 Top-1 精度得分方面高达 80.7%,比最好的结果提高了 29.5%,并在语音准确性方面达到了 93.5%。
Aug, 2022
本文采用基于规则的方法对英 - 旁遮普语进行机器音译,通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量,同时进行音节划分。
Jul, 2013
本文讨论了波斯 - 阿拉伯文字在自然语言处理方面的挑战,强调了正规化对于脚本变异的重要性,并对 8 种语言的机器翻译和统计语言建模任务的性能进行了评估。结果表明,大多数条件下应用正规化可以显着提高性能,并指出了在语言资源匮乏的情况下,更好地理解和呈现区域正字传统内波斯 - 阿拉伯脚本变化对于现代计算机自然语言处理技术的进一步发展至关重要
Oct, 2022
该论文介绍了 Dakshina 数据集,包含 12 种南亚语言的拉丁文和本地脚本文本、罗马化词典和全句平行数据,并提供了基于该数据集的单词音译、全句音译和语言建模的基线结果。
Jul, 2020
本文提出了一种将印度主要语言转换为 Bharti 盲文的方案,该系统采用混合方法,使用基于规则和基于 LSTM 的模型,测试结果表明该模型的准确性接近实际。
May, 2023
本文介绍了如何在 Perso-Arabic scripts 中实现语言检测。作者使用了一系列的监督技术来分类句子到他们的语言中,进而提出了一个层次模型来针对那些经常被分类器混淆的语言困境进行解决。实验结果表明了作者们得到的实现是有效的。
Apr, 2023
提出了一种新的跨语言平台,用于手写单词识别和标记低资源脚本,其中使用可用脚本(考虑为源脚本)的充分大的数据集进行训练,并在其他脚本(考虑为目标脚本)上进行测试,该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习,成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。
Dec, 2017
本文研究在社交媒体上,通过使用建模技术,对不同语言,特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理,而这有助于提高机器翻译和语言识别等下游任务的性能。
May, 2023