基于梵语知识的系统:注释和计算工具
本文描述了手动注释梵文文本,为知识图创建做出了努力。构建的知识图包含 410 个实体和 764 个关系,涵盖了 Bhavaprakashanighantu 的各种属性。
Feb, 2022
通过构建一个知识图谱以及应用该图谱回答事实型问题,本文探讨了从梵语文本中提取特定关系的难题,分析了系统在每个步骤中的不足之处,并讨论了未来的可能发展方向。
Oct, 2023
通过自然语言技术,本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务,即词分割、依存分析、合成类型识别和诗歌分析,提出了有关梵语自然语言处理(NLP)技术的关键问题,并在解决这些挑战的过程中提出了多项贡献,包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。
Aug, 2023
SanskritShala 是一个基于神经网络的梵语自然语言处理工具包,包括词语切分、形态标注、依存解析、复合词类型识别等多个模块,并且具有易于使用的交互式数据注释功能,公开发布其源代码和 7 个词嵌入模型,能够对词嵌入的内在特性如相似度、相关性、分类以及类比预测进行评估,是一个具有网络接口的全新工具包。
Feb, 2023
通过提出一个可解释性框架的路线图,本文探索了梵文诗歌与计算语言学的交集,以分析和分类精美梵文诗歌的特质和特点。通过从六个重要的 kavyashastra 学派的角度对梵文诗歌 Siksastaka 进行深入分析,提供了诗歌分析和注释的网页应用,为未来研究做出了贡献。
Aug, 2023
本文探讨了如何使用印度哲学的思想来开发一种语言技术工具,实现单词的‘Yogyatā’,从而进行词义消歧以提升口头认识,在此过程中使用了 'ontological tag-set' 标签集合等方法。
Jan, 2022
本文首先介绍了近年来有关监督学习的显著进展,引起了梵语计算语言学家的广泛关注。随后,作者为低资源环境下各种自然语言处理任务构建了具有特定任务标签的数据。接下来,作者以词嵌入为主要研究方向进行了分析,分类和评估。研究检验了词嵌入方法在梵语中的可用性以及该语言所面临的各种挑战。
Apr, 2021
本研究描述了修正后的对齐过程,并记录了额外的语言差异,以标准化数字梵语语料库,并为其提供完整的形态和词汇信息以及分段词。
May, 2020
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
该研究论文介绍了 Antarlekhaka,一种用于手动注释与自然语言处理(NLP)相关任务的综合工具。该工具支持分布式注释,适用于不同语言,并具备用户友好界面和广泛的 NLP 任务注释功能。
Oct, 2023