基于梵语知识的系统：注释和计算工具

Jun, 2024

基于梵语知识的系统：注释和计算工具

Sanskrit Knowledge-based Systems: Annotation and Computational Tools

Hrishikesh Terdalkar

TL;DR通过自动构建知识图谱的框架、引入本体驱动和通用任务的注释工具，以及提供多样化的网页界面、工具和软件库，我们在梵语的知识系统发展中解决了挑战与机遇，尤其在问答方面。这些贡献不仅提高了梵语文本分析的可访问性和准确性，而且为知识表达和语言处理领域的进一步发展铺平了道路。最终，这项研究对于保护、理解和利用梵语文本中所蕴含的丰富语言信息具有重要意义。

Abstract

We address the challenges and opportunities in the development of knowledge systems for sanskrit, with a focus on question answering. By proposing a framework for the automated construction of →

sanskrit knowledge systems question answering knowledge graphs computational sanskrit

发现论文，激发创造

基于半结构化阿育吠陀文本的语义注释和查询框架

本文描述了手动注释梵文文本，为知识图创建做出了努力。构建的知识图包含 410 个实体和 764 个关系，涵盖了 Bhavaprakashanighantu 的各种属性。

Feb, 2022

自动构建知识图谱的梵语问答框架

通过构建一个知识图谱以及应用该图谱回答事实型问题，本文探讨了从梵语文本中提取特定关系的难题，分析了系统在每个步骤中的不足之处，并讨论了未来的可能发展方向。

Oct, 2023

基于语言学的梵语词汇、句法和语义任务的神经网络结构

通过自然语言技术，本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务，即词分割、依存分析、合成类型识别和诗歌分析，提出了有关梵语自然语言处理（NLP）技术的关键问题，并在解决这些挑战的过程中提出了多项贡献，包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。

Aug, 2023

SanskritShala：基于神经网络的梵文自然语言处理工具集，带有面向教学和标注目的的基于 Web 的界面

SanskritShala 是一个基于神经网络的梵语自然语言处理工具包，包括词语切分、形态标注、依存解析、复合词类型识别等多个模块，并且具有易于使用的交互式数据注释功能，公开发布其源代码和 7 个词嵌入模型，能够对词嵌入的内在特性如相似度、相关性、分类以及类比预测进行评估，是一个具有网络接口的全新工具包。

Feb, 2023

从计算语言学的角度看梵语诗歌的美学：以《十首教训颂》为案例研究

通过提出一个可解释性框架的路线图，本文探索了梵文诗歌与计算语言学的交集，以分析和分类精美梵文诗歌的特质和特点。通过从六个重要的 kavyashastra 学派的角度对梵文诗歌 Siksastaka 进行深入分析，提供了诗歌分析和注释的网页应用，为未来研究做出了贡献。

Aug, 2023

关于 apadana 的 Karaka-Yogyata 捕捉策略

本文探讨了如何使用印度哲学的思想来开发一种语言技术工具，实现单词的‘Yogyatā’，从而进行词义消歧以提升口头认识，在此过程中使用了 'ontological tag-set' 标签集合等方法。

Jan, 2022

评估神经词嵌入在梵语中的应用

本文首先介绍了近年来有关监督学习的显著进展，引起了梵语计算语言学家的广泛关注。随后，作者为低资源环境下各种自然语言处理任务构建了具有特定任务标签的数据。接下来，作者以词嵌入为主要研究方向进行了分析，分类和评估。研究检验了词嵌入方法在梵语中的可用性以及该语言所面临的各种挑战。

Apr, 2021

使用梵文遗产工具验证和规范化 DCS 语料库，以构建已标记的黄金语料库

本研究描述了修正后的对齐过程，并记录了额外的语言差异，以标准化数字梵语语料库，并为其提供完整的形态和词汇信息以及分段词。

May, 2020

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

Antarlekhaka: 多任务自然语言注释的综合工具

该研究论文介绍了 Antarlekhaka，一种用于手动注释与自然语言处理（NLP）相关任务的综合工具。该工具支持分布式注释，适用于不同语言，并具备用户友好界面和广泛的 NLP 任务注释功能。

Oct, 2023