一种从印度语到巴哈蒂盲文字符的文本翻译模型
本文介绍一种改进了的英文到 Bharti 盲文的机器翻译系统,通过添加语言知识和翻译多词表达式子模块实现了对 NMT 模型的改进,目标语言为五种印度语言,英印语言对翻译质量最高达到 23.30% 的提高。
May, 2023
本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型,可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration,同时在精度方面显著优于所有现有模型,在 Top-1 精度得分方面高达 80.7%,比最好的结果提高了 29.5%,并在语音准确性方面达到了 93.5%。
Aug, 2022
该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展,以低资源语言(如孟加拉语和尼泊尔语)为例,通过对手写和打印的光学文本图像的集合进行评估,结果表明该技术与当前方法相符,并在孟加拉语和尼泊尔语的文本识别中取得了高精度,从而为东南亚地区的语言学研究打开了先机。
Apr, 2024
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下,我们验证了提出的方法,并且在大多数情况下得到了改进,在类似语言对(Gujarati-Hindi,Marathi-Hindi,Nepali-Hindi,Maithili - Hindi,Punjabi-Hindi 和 Urdu-Hindi)中,在一个案例中提高了约 10 BLEU 分数,而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。
May, 2023
本研究评估了科威特琴主义和印度Aryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此,我们确定了单语模型与 FastPitch 和 HiFi-GAN V1,联合训练男性和女性说话者表现最佳。在这个设置下,我们为 13 种语言训练和评估 TTS 模型,并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。
Nov, 2022
本研究采用 IndicBART 和 mT5 模型,研究它们在印度语言数据集上的摘要性能,结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。
Mar, 2023
该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据,训练出支持所有 22 种印度语言的机器翻译模型,为印度的语言多样性提供广泛且易于访问的机器翻译系统,该研究创造性地提出了四个关键领域的改进,并发布了 BPCC 和 IndicTrans2 等数据资源和模型。
May, 2023
我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别(LID)数据集和模型,并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。
May, 2023
在当代数字时代中,互联网作为一个无与伦比的催化剂,打破了地理和语言壁垒,尤其在短信交流中表现得格外明显。本研究通过使用 BERT 进行语言分类和 Google Translate API 进行转写转换,从 Hindi 和 Russian 语言的手机短信数据集中解决了对转写文本的语言识别挑战,突破数字通信的多样化语言环境。通过广泛的转写动态探索、创新方法和 BERT 等前沿技术,我们的研究处于解决数字通信语言环境中独特挑战的前沿位置。此工作除了在语言识别和转写能力方面有所贡献外,还为内容审核、分析和促进全球互联的有意义对话社区提供了希望。
Jan, 2024
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 91.78% 和 92.35% 的准确率。
Mar, 2018