英语到旁遮普语的基于规则的音译方案
本文通过将当前最先进的名词实体翻译方案与转音符号结合,引入了一个新的机器翻译方法。作者通过构建多种基于统计规则的音节分隔规则,借助概率计算得到一个英语到旁遮普语的名词实体翻译与转音符翻译系统,通过调用统计机器翻译工具 MOSES 提高了翻译质量。
Oct, 2013
本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型,可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration,同时在精度方面显著优于所有现有模型,在 Top-1 精度得分方面高达 80.7%,比最好的结果提高了 29.5%,并在语音准确性方面达到了 93.5%。
Aug, 2022
本研究使用基于规则的方法将 Sorani Kurdish 的两种正字法进行翻译,并提出了有关 Sorani Kurdish 翻译的新颖想法,其翻译系统 Wergor 的整体精度为 82.79%,对双重字符的检测精度超过 99%,并提供了一个手动翻译的库。
Nov, 2018
该研究聚焦于通过减少转写中的复杂性,从词级别对 Singlish 语言进行转译,应用基于规则的编码系统,利用模糊逻辑实现匹配,并提供相关词建议,结果表明这种 Swa Bhasha 转译系统能够提升使用 Singlish 向 Sinhala 转写的用户体验。
Apr, 2024
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。
Dec, 2023
本文探讨了多语种最新命名实体转写系统的一些基本设计挑战,并使用传统的加权有限状态转换器方法对两种神经方法进行实证评估:编码器 - 解码器循环神经网络方法和最近的非顺序 Transformer 方法。为了提高双语命名实体转写数据集的可用性,我们在英语到俄语、希伯来语、阿拉伯语和日语片假名方面发布了从维基数据中构建的个人命名双语词典。我们的代码和词典已经公开发布。
Aug, 2018
在当代数字时代中,互联网作为一个无与伦比的催化剂,打破了地理和语言壁垒,尤其在短信交流中表现得格外明显。本研究通过使用 BERT 进行语言分类和 Google Translate API 进行转写转换,从 Hindi 和 Russian 语言的手机短信数据集中解决了对转写文本的语言识别挑战,突破数字通信的多样化语言环境。通过广泛的转写动态探索、创新方法和 BERT 等前沿技术,我们的研究处于解决数字通信语言环境中独特挑战的前沿位置。此工作除了在语言识别和转写能力方面有所贡献外,还为内容审核、分析和促进全球互联的有意义对话社区提供了希望。
Jan, 2024
我们的研究旨在为低资源语言提供直接的语音 - 语音翻译模型,并探索使用离散的语音单位作为 Transformer 翻译模型输入的性能。结果显示,该模型比语音 - 单位翻译模型的 BLEU 分数高出 3.69。
Feb, 2024