一夜建立梵文分词器
在这篇文章中,我们描述了我们参加的梵语单词分割和形态分析比赛,并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法,同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型,在联合分割和分析子任务中取得了最好的成绩(80.018 F1 score),在单独的子任务中表现第二好(分割:96.189 F1 score / 分析:69.180 F1 score)。最后,我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。
Jan, 2022
通过自然语言技术,本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务,即词分割、依存分析、合成类型识别和诗歌分析,提出了有关梵语自然语言处理(NLP)技术的关键问题,并在解决这些挑战的过程中提出了多项贡献,包括提出了具有语言学信息的神经网络体系结构、展示了所提系统的可解释性和多语言扩展性、报道了最先进的性能以及开发了名为 SanskritShala 的神经工具套件。
Aug, 2023
本文提出了基于 Transformer 的新方法(TransLIST)来应对 Sanskrit Word Segmentation 中的挑战,该方法结合了专门针对 SWS 的 sandhi 现象的 latent-word 信息,使用了新颖的软蒙版注意力机制来优先考虑潜在的候选词,并使用了新颖的路径排名算法来修正错误的预测,并且实验证明 TransLIST 在 PM 度量标准上的表现优于当前最先进的系统,平均提高了 7.2 个百分点。
Oct, 2022
本研究提出了一种在梵文中结合了词语分割和形态标注任务的结构化预测框架,采用了图形解析技术中通常采用的方法,其在使用不到特定训练数据的情况下,F 值达到了 96.92%(改善率为 7.06%),而采用图形解析方法而不是传统基于格子的顺序标注方法,则在分割任务中导致 F 值提高了 12.6%。
Sep, 2018
本研究描述了修正后的对齐过程,并记录了额外的语言差异,以标准化数字梵语语料库,并为其提供完整的形态和词汇信息以及分段词。
May, 2020
本文提出一种基于 BiLSTM-CRF 框架的端到端神经分割器,为了提高其准确性,我们解决了数据不足的问题,并使用自我注意机制捕捉了有用的邻域信息,实验结果表明,我们的模型在达到新的最佳性能的同时,比以前的方法快得多。
Aug, 2018
在语音领域中,基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明,仅依靠注意力机制是不稳健的,只有在训练数据包含话语标注的情况下才具有可用性。
Sep, 2021
该研究提出了一种基于语言模型的子词分段语言模型(SSLM),在训练期间学习如何分段单词,以优化语言模型的性能。通过统一子词分割和语言建模,SSL 模型学习到优化语言建模性能的子词。结果表明,学习子词分割是现有子词分割器的有效替代方案,可以发现类似词素的子词,以提高其语言模型的能力。
Oct, 2022
本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果,其中使用 PEGASUS 模型得到了最佳的英文结果,使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果,并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型,使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。
Dec, 2022
在这项工作中,我们发布了一个后 OCR 文本校正数据集,其中包含来自 30 本不同书籍的约 218,000 个句子,共 1.5 百万个单词,涵盖了天文学、医学和数学等多个领域,其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2Seq 语言模型的多个强基线作为任务的基准。通过字节级标记和音素编码(Byt5+SLP1)的最佳模型,我们在单词和字符错误率方面取得了 23%的增加。
Nov, 2022