一夜建立梵文分词器

Feb, 2018

Building a Word Segmenter for Sanskrit Overnight

Vikas Reddy, Amrith Krishna, Vishnu Dutt Sharma, Prateek Gupta, Vineeth M R...

TL;DR提出了一种基于序列到序列模型的 Sanskrit Sandhi 文本分词方法，该模型只使用 Sandhi 化字符串作为输入，并预测正常分词的字符串，经过实验比当前最先进的模型具有更好的表现，且可在一晚上进行训练并应用于生产。

Abstract

There is an abundance of digitised texts available in sanskrit. However, the word segmentation task in such texts are challenging due to the issue of '→

sanskrit sandhi sequence to sequence model word segmentation

发现论文，激发创造

梵文分词和形态分析

在这篇文章中，我们描述了我们参加的梵语单词分割和形态分析比赛，并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法，同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型，在联合分割和分析子任务中取得了最好的成绩（80.018 F1 score），在单独的子任务中表现第二好（分割：96.189 F1 score / 分析：69.180 F1 score）。最后，我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。

Jan, 2022

基于语言学的梵语词汇、句法和语义任务的神经网络结构

通过自然语言技术，本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务，即词分割、依存分析、合成类型识别和诗歌分析，提出了有关梵语自然语言处理（NLP）技术的关键问题，并在解决这些挑战的过程中提出了多项贡献，包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。

Aug, 2023

基于 Transformer 的语言学知识的梵文分词器 TransLIST

本文提出了基于 Transformer 的新方法（TransLIST）来应对 Sanskrit Word Segmentation 中的挑战，该方法结合了专门针对 SWS 的 sandhi 现象的 latent-word 信息，使用了新颖的软蒙版注意力机制来优先考虑潜在的候选词，并使用了新颖的路径排名算法来修正错误的预测，并且实验证明 TransLIST 在 PM 度量标准上的表现优于当前最先进的系统，平均提高了 7.2 个百分点。

Oct, 2022

自由的词序：基于能量的梵语词分割和形态标注模型

本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架，采用了图形解析技术中通常采用的方法，其在使用不到特定训练数据的情况下，F 值达到了 96.92%（改善率为 7.06%），而采用图形解析方法而不是传统基于格子的顺序标注方法，则在分割任务中导致 F 值提高了 12.6%。

Sep, 2018

使用梵文遗产工具验证和规范化 DCS 语料库，以构建已标记的黄金语料库

本研究描述了修正后的对齐过程，并记录了额外的语言差异，以标准化数字梵语语料库，并为其提供完整的形态和词汇信息以及分段词。

May, 2020

快速且准确的神经话语分割

本文提出一种基于 BiLSTM-CRF 框架的端到端神经分割器，为了提高其准确性，我们解决了数据不足的问题，并使用自我注意机制捕捉了有用的邻域信息，实验结果表明，我们的模型在达到新的最佳性能的同时，比以前的方法快得多。

Aug, 2018

关于使用注意力机制分隔单词的难度

在语音领域中，基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明，仅依靠注意力机制是不稳健的，只有在训练数据包含话语标注的情况下才具有可用性。

Sep, 2021

用于恩格尼语的亚词分语言建模

该研究提出了一种基于语言模型的子词分段语言模型（SSLM），在训练期间学习如何分段单词，以优化语言模型的性能。通过统一子词分割和语言建模，SSL 模型学习到优化语言建模性能的子词。结果表明，学习子词分割是现有子词分割器的有效替代方案，可以发现类似词素的子词，以提高其语言模型的能力。

Oct, 2022

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

梵文 OCR 后文本校正的基准和数据集

在这项工作中，我们发布了一个后 OCR 文本校正数据集，其中包含来自 30 本不同书籍的约 218,000 个句子，共 1.5 百万个单词，涵盖了天文学、医学和数学等多个领域，其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2Seq 语言模型的多个强基线作为任务的基准。通过字节级标记和音素编码（Byt5+SLP1）的最佳模型，我们在单词和字符错误率方面取得了 23％的增加。

Nov, 2022