CharSS: 梵语词分割的字符级Transformer模型

Jul, 2024

CharSS: 梵语词分割的字符级Transformer模型

CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation

Krishnakant Bhatt, Karthika N J, Ganesh Ramakrishnan, Preethi Jyothi

TL;DR利用字符级Transformer模型进行梵语词分割(CharSS)方法，在三个基准数据集上的实验证明，相对于现有方法，在UoH+SandhiKosh数据集上的分割预测准确性绝对改善幅度为6.72，而在hackathon数据集上则相对现有最佳系统提升了2.27个完全匹配度得分。此外，在使用基于梵语分词的片段进行技术术语的语言学翻译任务中，分别实现了8.46和6.79 chrF++分数的平均改进。

Abstract

subword tokens in Indian languages inherently carry meaning, and isolating them can enhance nlp tasks, making sub-word segmentation a cruc

发现论文，激发创造

使用seq2(seq)^2对梵文Sandhi进行拆分

使用一种双解码循环神经网络（DD-RNN）预测复合词的分词位置和组成单词，该方法在Sanskrit和中文分词问题上的表现优于现有技术。

Jan, 2018

一夜建立梵文分词器

提出了一种基于序列到序列模型的 Sanskrit Sandhi 文本分词方法，该模型只使用 Sandhi 化字符串作为输入，并预测正常分词的字符串，经过实验比当前最先进的模型具有更好的表现，且可在一晚上进行训练并应用于生产。

Feb, 2018

自由的词序：基于能量的梵语词分割和形态标注模型

本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架，采用了图形解析技术中通常采用的方法，其在使用不到特定训练数据的情况下，F值达到了96.92%（改善率为7.06%），而采用图形解析方法而不是传统基于格子的顺序标注方法，则在分割任务中导致F值提高了12.6%。

Sep, 2018

使用梵文遗产工具验证和规范化DCS语料库，以构建已标记的黄金语料库

本研究描述了修正后的对齐过程，并记录了额外的语言差异，以标准化数字梵语语料库，并为其提供完整的形态和词汇信息以及分段词。

May, 2020

评估神经词嵌入在梵语中的应用

本文首先介绍了近年来有关监督学习的显著进展，引起了梵语计算语言学家的广泛关注。随后，作者为低资源环境下各种自然语言处理任务构建了具有特定任务标签的数据。接下来，作者以词嵌入为主要研究方向进行了分析，分类和评估。研究检验了词嵌入方法在梵语中的可用性以及该语言所面临的各种挑战。

Apr, 2021

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语ASR进行了首次大规模研究，研究了单元选择对梵语ASR的影响，并发布了78小时的梵语ASR数据集，研究不同声学模型和语言模型单元在ASR系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

梵文分词和形态分析

在这篇文章中，我们描述了我们参加的梵语单词分割和形态分析比赛，并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法，同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型，在联合分割和分析子任务中取得了最好的成绩（80.018 F1 score），在单独的子任务中表现第二好（分割：96.189 F1 score / 分析：69.180 F1 score）。最后，我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。

Jan, 2022

基于Transformer的语言学知识的梵文分词器TransLIST

本文提出了基于Transformer的新方法（TransLIST）来应对Sanskrit Word Segmentation中的挑战，该方法结合了专门针对SWS的sandhi现象的latent-word信息，使用了新颖的软蒙版注意力机制来优先考虑潜在的候选词，并使用了新颖的路径排名算法来修正错误的预测，并且实验证明TransLIST在PM度量标准上的表现优于当前最先进的系统，平均提高了7.2个百分点。

Oct, 2022

SanskritShala：基于神经网络的梵文自然语言处理工具集，带有面向教学和标注目的的基于Web的界面

SanskritShala是一个基于神经网络的梵语自然语言处理工具包，包括词语切分、形态标注、依存解析、复合词类型识别等多个模块，并且具有易于使用的交互式数据注释功能，公开发布其源代码和7个词嵌入模型，能够对词嵌入的内在特性如相似度、相关性、分类以及类比预测进行评估，是一个具有网络接口的全新工具包。

Feb, 2023

基于语言学的梵语词汇、句法和语义任务的神经网络结构

通过自然语言技术，本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务，即词分割、依存分析、合成类型识别和诗歌分析，提出了有关梵语自然语言处理（NLP）技术的关键问题，并在解决这些挑战的过程中提出了多项贡献，包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为SanskritShala的神经工具套件。

Aug, 2023