基于规则的库尔德文转写系统
本文采用基于规则的方法对英 - 旁遮普语进行机器音译,通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量,同时进行音节划分。
Jul, 2013
该研究旨在使用一种无监督机器学习方法(Punkt)对使用波斯 - 阿拉伯文本写的 Sorani 方言的库尔德语语料库进行分割。该实验取得了 91.10%的 F1 分数,但错误率达到了 16.32%,主要原因是在库尔德语中的缩写情况和序数数字。
Apr, 2020
该研究致力于处理库尔德历史出版物,采用 Google 的免费 OCR 框架 Tesseract 5.0,使用自行创建的历史文档数据集进行训练,开发了一个提取文本的网页应用,同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。
Apr, 2024
本文介绍了 Kurdisk Textbooks Corpus (KTC),这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库,它经过规范化并按照 12 个教育科目进行分类,包含了 693,800 个单词(110,297 个类型)。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。
Sep, 2019
本文介绍了一种使用基于规则的和微调的方法开发出的机器音译工具,用于低资源语言乌兹别克语的三种常见脚本的转换,并支持乌兹别克语新宣布的拉丁字母表,其 Python 开源代码以及包含公共 API 的 Web 应用程序是可用的。
May, 2022
本研究旨在解决少数民族语言技术中面临的数据缺乏问题,提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法,并探讨了语言识别任务在不同库尔德语言种和扎扎 - 戈拉尼语中的研究。
Apr, 2023
该论文介绍了一项将库尔德语口语和库尔德聋人使用的自然语言 —— 库尔德手语(KuSL)自动转换的研究。该研究使用基于 Avatar 的技术将中等库尔德方言 Sorani 的文字转换为库尔德手语,并使用统计机器翻译引擎进行了评估,最终在 BLEU 评估中获得了 53.8% 的准确率。
May, 2023
本文探讨了多语种最新命名实体转写系统的一些基本设计挑战,并使用传统的加权有限状态转换器方法对两种神经方法进行实证评估:编码器 - 解码器循环神经网络方法和最近的非顺序 Transformer 方法。为了提高双语命名实体转写数据集的可用性,我们在英语到俄语、希伯来语、阿拉伯语和日语片假名方面发布了从维基数据中构建的个人命名双语词典。我们的代码和词典已经公开发布。
Aug, 2018
提出了一个探索性工具,它从多语言新闻集合中提取出人名,将同一人物的不同名字匹配起来,并根据这些人名在相关新闻中的共同出现来推断人物间的关系,该工具能匹配包括希腊文、西里尔文和阿拉伯文等不同语言和文字系统中的名字变体,该工作是 NewsExplorer 新闻分析系统的一部分。
Sep, 2006