使用 N 个字母来建模梵语及其相关文本
提出了一种基于序列到序列模型的 Sanskrit Sandhi 文本分词方法,该模型只使用 Sandhi 化字符串作为输入,并预测正常分词的字符串,经过实验比当前最先进的模型具有更好的表现,且可在一晚上进行训练并应用于生产。
Feb, 2018
通过自然语言技术,本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务,即词分割、依存分析、合成类型识别和诗歌分析,提出了有关梵语自然语言处理(NLP)技术的关键问题,并在解决这些挑战的过程中提出了多项贡献,包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。
Aug, 2023
通过构建一个知识图谱以及应用该图谱回答事实型问题,本文探讨了从梵语文本中提取特定关系的难题,分析了系统在每个步骤中的不足之处,并讨论了未来的可能发展方向。
Oct, 2023
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
通过自动构建知识图谱的框架、引入本体驱动和通用任务的注释工具,以及提供多样化的网页界面、工具和软件库,我们在梵语的知识系统发展中解决了挑战与机遇,尤其在问答方面。这些贡献不仅提高了梵语文本分析的可访问性和准确性,而且为知识表达和语言处理领域的进一步发展铺平了道路。最终,这项研究对于保护、理解和利用梵语文本中所蕴含的丰富语言信息具有重要意义。
Jun, 2024
使用多语种 SNACS 注释方案,我们在印地语中提供了一个已完成且公开可用的附有语义关系注释的介词和格标记语料库,并利用语言模型自动标记 SNACS 超义,并取得了在英语上的类似成果,这可用于上游应用于语义角色标记和 Gujarti 等相关语言的扩展。
May, 2022
本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架,采用了图形解析技术中通常采用的方法,其在使用不到特定训练数据的情况下,F 值达到了 96.92%(改善率为 7.06%),而采用图形解析方法而不是传统基于格子的顺序标注方法,则在分割任务中导致 F 值提高了 12.6%。
Sep, 2018
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
通过提出一个可解释性框架的路线图,本文探索了梵文诗歌与计算语言学的交集,以分析和分类精美梵文诗歌的特质和特点。通过从六个重要的 kavyashastra 学派的角度对梵文诗歌 Siksastaka 进行深入分析,提供了诗歌分析和注释的网页应用,为未来研究做出了贡献。
Aug, 2023
本研究描述了修正后的对齐过程,并记录了额外的语言差异,以标准化数字梵语语料库,并为其提供完整的形态和词汇信息以及分段词。
May, 2020