- 基于梵语知识的系统:注释和计算工具
通过自动构建知识图谱的框架、引入本体驱动和通用任务的注释工具,以及提供多样化的网页界面、工具和软件库,我们在梵语的知识系统发展中解决了挑战与机遇,尤其在问答方面。这些贡献不仅提高了梵语文本分析的可访问性和准确性,而且为知识表达和语言处理领域 - EMNLPDepNeCTI: 基于依存的梵语嵌套复合类型识别
通过提出嵌套复合词类型识别(NeCTI)任务,本研究介绍了一个新颖的方法来识别多组分复合词的嵌套结构,并解码它们之间的隐含语义关系,通过提出 Dependency-based Nested Compound Type Identifier( - 自动构建知识图谱的梵语问答框架
通过构建一个知识图谱以及应用该图谱回答事实型问题,本文探讨了从梵语文本中提取特定关系的难题,分析了系统在每个步骤中的不足之处,并讨论了未来的可能发展方向。
- SAHAAYAK 2023 - 梵文到印地语的多领域双语平行语料库,用于机器翻译
本文介绍了一个名为 SAHAAYAK 2023 的低资源语言 Sanskrit-Hindi 的大型双语平行语料库,包括新闻,日常对话,政治,历史,体育和古印度文学的多个领域,以及通过挖掘,清洗和验证而得到的多方面的方法制作的一个规模可观的多 - Sāmayik:英梵翻译基准和数据集
我们发布了一个数据集,包含超过 42,000 个英汉平行句子,旨在填补现有涵盖当代修辞体的数字梵语语料库的空白。此外,我们还发布了来自现代语料库和包含梵语的以前发布的古典时代机器翻译数据集的训练样本,以适应现有的多语言预训练模型。
- 通过情感和语义分析评估谷歌翻译从梵文到英文的翻译效果
本研究使用 BERT-based 语言模型对谷歌翻译进行 Bhagavad Gita 梵文文本的感情和语义分析,结果表明与专家翻译相比,谷歌翻译在选定诗句中的相似度水平很低。由于梵文的诗意性、上下文的重要性、隐喻和意象,谷歌翻译在翻译某些梵 - 使用 N 个字母来建模梵语及其相关文本
使用 n-aksaras 将梵文文本进行分词,使得在文本分析中无需解决 sandhi 等问题,测试结果显示可以跨越十个世纪和九种语言进行文本重用模式的分析,并对佛教评论实践的一些初步观察进行了讨论。
- 使用 Tacotron2、WaveGlow 和迁移学习的低资源端到端梵语 TTS
本文研究使用 fine-tuning 改进了英语预训练的 Tacotron2 模型,以有限的梵语数据在资源匮乏的环境下合成自然语音,并取得了令人鼓舞的结果。
- EMNLP梵文 OCR 后文本校正的基准和数据集
在这项工作中,我们发布了一个后 OCR 文本校正数据集,其中包含来自 30 本不同书籍的约 218,000 个句子,共 1.5 百万个单词,涵盖了天文学、医学和数学等多个领域,其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2 - 香度(Chandojnanam):一种梵文韵律辨识与应用系统
Chandojñānam 是一个基于网络的梵语测量(Chanda)识别和利用系统,它支持通过光学字符识别(OCR)引擎识别上传图像的梵语,具有文本批处理的能力,并且能够在出现偏差的数字文集进行基于测量的纠错,并提供友好的用户界面来显示测量规 - COLING梵文上下文敏感复合类型识别的新型多任务学习方法
本文介绍了一个基于多任务学习的新架构,该架构通过引入形态标记和依存句法分析作为两个辅助任务来整合语境信息并增强补充句法信息,从而解决了在组合词中识别语义关系的问题,并在 SaCTI 基准数据集上取得了 6.1 分(准确率)和 7.7 分(F - 基于半结构化阿育吠陀文本的语义注释和查询框架
本文描述了手动注释梵文文本,为知识图创建做出了努力。构建的知识图包含 410 个实体和 764 个关系,涵盖了 Bhavaprakashanighantu 的各种属性。
- ACL评估用于梵语的神经形态标注器
本研究评估了四种标准的序列标注模型在梵语单词形态标注方面的效果,发现尽管一些神经模型表现更好,但所有模型的一个常见错误原因是由于不同单词形态混淆造成的错误。
- 基于注意力机制的印度语言神经机器翻译系统
本文提出了神经机器翻译系统,可以有效翻译印度语言,如印地语和古吉拉特语,其表现优于 Google 翻译,基于 BLEU、困惑度和 TER 矩阵的自动评估表明了其性能优势。
- EMNLP自由的词序:基于能量的梵语词分割和形态标注模型
本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架,采用了图形解析技术中通常采用的方法,其在使用不到特定训练数据的情况下,F 值达到了 96.92%(改善率为 7.06%),而采用图形解析方法而不是传统基于格子的顺序标注方 - 一夜建立梵文分词器
提出了一种基于序列到序列模型的 Sanskrit Sandhi 文本分词方法,该模型只使用 Sandhi 化字符串作为输入,并预测正常分词的字符串,经过实验比当前最先进的模型具有更好的表现,且可在一晚上进行训练并应用于生产。
- EMNLP使用 seq2 (seq)^2 对梵文 Sandhi 进行拆分
使用一种双解码循环神经网络(DD-RNN)预测复合词的分词位置和组成单词,该方法在 Sanskrit 和中文分词问题上的表现优于现有技术。