使用 N 个字母来建模梵语及其相关文本

Jan, 2023

使用 N 个字母来建模梵语及其相关文本

Using n-aksaras to model Sanskrit and Sanskrit-adjacent texts

Charles Li

TL;DR使用 n-aksaras 将梵文文本进行分词，使得在文本分析中无需解决 sandhi 等问题，测试结果显示可以跨越十个世纪和九种语言进行文本重用模式的分析，并对佛教评论实践的一些初步观察进行了讨论。

Abstract

Despite -- or perhaps because of -- their simplicity, n-grams, or contiguous sequences of tokens, have been used with great success in computational linguistics since their introduction in the late 20th century. Recast as k-mers, or contiguous sequences of monomers, they have also foun

n-grams sanskrit text analysis sandhi resolution buddhist commentarial practices

发现论文，激发创造

一夜建立梵文分词器

提出了一种基于序列到序列模型的 Sanskrit Sandhi 文本分词方法，该模型只使用 Sandhi 化字符串作为输入，并预测正常分词的字符串，经过实验比当前最先进的模型具有更好的表现，且可在一晚上进行训练并应用于生产。

Feb, 2018

基于语言学的梵语词汇、句法和语义任务的神经网络结构

通过自然语言技术，本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务，即词分割、依存分析、合成类型识别和诗歌分析，提出了有关梵语自然语言处理（NLP）技术的关键问题，并在解决这些挑战的过程中提出了多项贡献，包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。

Aug, 2023

自动构建知识图谱的梵语问答框架

通过构建一个知识图谱以及应用该图谱回答事实型问题，本文探讨了从梵语文本中提取特定关系的难题，分析了系统在每个步骤中的不足之处，并讨论了未来的可能发展方向。

Oct, 2023

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

基于梵语知识的系统：注释和计算工具

通过自动构建知识图谱的框架、引入本体驱动和通用任务的注释工具，以及提供多样化的网页界面、工具和软件库，我们在梵语的知识系统发展中解决了挑战与机遇，尤其在问答方面。这些贡献不仅提高了梵语文本分析的可访问性和准确性，而且为知识表达和语言处理领域的进一步发展铺平了道路。最终，这项研究对于保护、理解和利用梵语文本中所蕴含的丰富语言信息具有重要意义。

Jun, 2024

MASALA: 印地语语言标注中介词语义建模和分析

使用多语种 SNACS 注释方案，我们在印地语中提供了一个已完成且公开可用的附有语义关系注释的介词和格标记语料库，并利用语言模型自动标记 SNACS 超义，并取得了在英语上的类似成果，这可用于上游应用于语义角色标记和 Gujarti 等相关语言的扩展。

May, 2022

自由的词序：基于能量的梵语词分割和形态标注模型

本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架，采用了图形解析技术中通常采用的方法，其在使用不到特定训练数据的情况下，F 值达到了 96.92%（改善率为 7.06%），而采用图形解析方法而不是传统基于格子的顺序标注方法，则在分割任务中导致 F 值提高了 12.6%。

Sep, 2018

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

从计算语言学的角度看梵语诗歌的美学：以《十首教训颂》为案例研究

通过提出一个可解释性框架的路线图，本文探索了梵文诗歌与计算语言学的交集，以分析和分类精美梵文诗歌的特质和特点。通过从六个重要的 kavyashastra 学派的角度对梵文诗歌 Siksastaka 进行深入分析，提供了诗歌分析和注释的网页应用，为未来研究做出了贡献。

Aug, 2023

使用梵文遗产工具验证和规范化 DCS 语料库，以构建已标记的黄金语料库

本研究描述了修正后的对齐过程，并记录了额外的语言差异，以标准化数字梵语语料库，并为其提供完整的形态和词汇信息以及分段词。

May, 2020