使用音节子词标记进行开放词汇马拉雅拉姆语语音识别

Jan, 2023

使用音节子词标记进行开放词汇马拉雅拉姆语语音识别

Syllable Subword Tokens for Open Vocabulary Speech Recognition in Malayalam

Kavya Manohar, A. R. Jayan, Rajeev Rajan

TL;DR本文探讨了在马拉雅拉姆语自动语音识别中使用音节子单元作为音素字典和语言模型，并评估了词汇量、内存需求和词语错误率的相对改善。

Abstract

In a hybrid automatic speech recognition (ASR) system, a pronunciation lexicon (PL) and a language model (LM) are essential to correctly retrieve spoken word sequences. Being a morphologically complex language, t

hybrid automatic speech recognition pronunciation lexicon language model malayalam subword tokens

发现论文，激发创造

重新审视音节在语言建模中的作用及其在低资源机器翻译上的应用

本文探讨利用音节对语言建模和机器翻译的作用。通过 21 种语言的实验，我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组（西班牙语 - Shipibo-Konibo）进行翻译时，音节在成对的和多语言的系统中优于无监督的子词和进一步的形态分割方法。最后，我们进行了一些人类评估，并讨论了局限和机遇。

Oct, 2022

引入音节分词技术用于低资源语言：以斯瓦希里语为例研究

我们提出了一种音节分词器，并采用实验为中心的方法验证所提出的分词器在斯瓦希里语中的有效性。我们使用 GPT2 进行文本生成实验，结果证明所提出的音节分词器能够有效地表示斯瓦希里语。

Mar, 2024

Breaking Character: MRLs 是否真的只需要使用子词？

对于语言中包含丰富词形的复杂语言，使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是，对于语义任务，基于子单元的 PLM 表现更好，这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。

Apr, 2022

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

使用发音辅助的子词建模提高端到端语音识别

本文提出一种发音辅助子词建模方法（PASM），该方法利用单词的发音信息提取子词，实验表明该方法可以比基于字符的基准方法和常用的字节对编码方法更好地提高语音识别精度。

Nov, 2018

用于恩格尼语的亚词分语言建模

该研究提出了一种基于语言模型的子词分段语言模型（SSLM），在训练期间学习如何分段单词，以优化语言模型的性能。通过统一子词分割和语言建模，SSL 模型学习到优化语言建模性能的子词。结果表明，学习子词分割是现有子词分割器的有效替代方案，可以发现类似词素的子词，以提高其语言模型的能力。

Oct, 2022

分析子词切分的认知可信度

对比了三种分词算法在多种语言和词汇量上，发现 UnigramLM 算法在分词行为上的认知合理性较低，且派生形态的覆盖率较低。

Oct, 2023

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

构建低资源语言口语理解系统

研究探索低资源语言环境下，使用拼音转录进行意图分类的方法构建基于语音理解系统，并发现相较于使用语音特征的系统，使用拼音转录的系统具有显著的分类性能提升。

May, 2022

语音识别中基于 Beam 搜索重新评分的韩语切词

研究了在韩语语音识别中使用外部语言模型的 beam-search 解码方法，提出了一种新的韩语标记方法，即在韩语音节中无尾辅音时插入特殊标记 SkipTC，实验证明采用 SkipTC 标记可以使输入语言模型序列更规则化，能更好地学习韩语的语言特征，减少词误率。

Feb, 2022