基于规则的库尔德文转写系统

Nov, 2018

A Rule-based Kurdish Text Transliteration System

Sina Ahmadi

TL;DR本研究使用基于规则的方法将 Sorani Kurdish 的两种正字法进行翻译，并提出了有关 Sorani Kurdish 翻译的新颖想法，其翻译系统 Wergor 的整体精度为 82.79％，对双重字符的检测精度超过 99％，并提供了一个手动翻译的库。

Abstract

In this article, we present a rule-based approach for transliterating two mostly used orthographies in sorani kurdish. Our work consists of detecting a character in a word by removing the possible ambiguities and

transliteration sorani kurdish orthographies text mining wergor

发现论文，激发创造

从天城文转写为波斯 - 阿拉伯文之间的信德语转写

本文提出脚本转换（音译）技术，可将德瓦那加里文的信迪文本转换为波斯阿拉伯文，实现了 99.64% 的整体精度。

May, 2023

英语到旁遮普语的基于规则的音译方案

本文采用基于规则的方法对英 - 旁遮普语进行机器音译，通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量，同时进行音节划分。

Jul, 2013

在非拉丁文本中使用 Punkt 进行句子分段：对库尔德语（索拉尼方言）文本的实验

该研究旨在使用一种无监督机器学习方法（Punkt）对使用波斯 - 阿拉伯文本写的 Sorani 方言的库尔德语语料库进行分割。该实验取得了 91.10％的 F1 分数，但错误率达到了 16.32％，主要原因是在库尔德语中的缩写情况和序数数字。

Apr, 2020

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

该研究致力于处理库尔德历史出版物，采用 Google 的免费 OCR 框架 Tesseract 5.0，使用自行创建的历史文档数据集进行训练，开发了一个提取文本的网页应用，同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。

Apr, 2024

开发少资源语言的细粒度语料库：以库尔德语为例

本文介绍了 Kurdisk Textbooks Corpus (KTC)，这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库，它经过规范化并按照 12 个教育科目进行分类，包含了 693,800 个单词（110,297 个类型）。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。

Sep, 2019

乌兹别克字母之间的机器音译工具

本文介绍了一种使用基于规则的和微调的方法开发出的机器音译工具，用于低资源语言乌兹别克语的三种常见脚本的转换，并支持乌兹别克语新宣布的拉丁字母表，其 Python 开源代码以及包含公共 API 的 Web 应用程序是可用的。

May, 2022

低资源语言技术语料库构建方法研究：以南库尔德语和拉基语为例

本研究旨在解决少数民族语言技术中面临的数据缺乏问题，提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法，并探讨了语言识别任务在不同库尔德语言种和扎扎 - 戈拉尼语中的研究。

Apr, 2023

库尔德手语第一对平行语料库

该论文介绍了一项将库尔德语口语和库尔德聋人使用的自然语言 —— 库尔德手语（KuSL）自动转换的研究。该研究使用基于 Avatar 的技术将中等库尔德方言 Sorani 的文字转换为库尔德手语，并使用统计机器翻译引擎进行了评估，最终在 BLEU 评估中获得了 53.8% 的准确率。

May, 2023

命名实体音译中的设计挑战

本文探讨了多语种最新命名实体转写系统的一些基本设计挑战，并使用传统的加权有限状态转换器方法对两种神经方法进行实证评估：编码器 - 解码器循环神经网络方法和最近的非顺序 Transformer 方法。为了提高双语命名实体转写数据集的可用性，我们在英语到俄语、希伯来语、阿拉伯语和日语片假名方面发布了从维基数据中构建的个人命名双语词典。我们的代码和词典已经公开发布。

Aug, 2018

多语言人名识别和音译

提出了一个探索性工具，它从多语言新闻集合中提取出人名，将同一人物的不同名字匹配起来，并根据这些人名在相关新闻中的共同出现来推断人物间的关系，该工具能匹配包括希腊文、西里尔文和阿拉伯文等不同语言和文字系统中的名字变体，该工作是 NewsExplorer 新闻分析系统的一部分。

Sep, 2006