本文探讨利用音节对语言建模和机器翻译的作用。通过 21 种语言的实验,我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组(西班牙语 - Shipibo-Konibo)进行翻译时,音节在成对的和多语言的系统中优于无监督的子词和进一步的形态分割方法。最后,我们进行了一些人类评估,并讨论了局限和机遇。
Oct, 2022
我们提出了一种音节分词器,并采用实验为中心的方法验证所提出的分词器在斯瓦希里语中的有效性。我们使用 GPT2 进行文本生成实验,结果证明所提出的音节分词器能够有效地表示斯瓦希里语。
Mar, 2024
对于语言中包含丰富词形的复杂语言,使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是,对于语义任务,基于子单元的 PLM 表现更好,这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。
Apr, 2022
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
本文提出一种发音辅助子词建模方法(PASM),该方法利用单词的发音信息提取子词,实验表明该方法可以比基于字符的基准方法和常用的字节对编码方法更好地提高语音识别精度。
Nov, 2018
该研究提出了一种基于语言模型的子词分段语言模型(SSLM),在训练期间学习如何分段单词,以优化语言模型的性能。通过统一子词分割和语言建模,SSL 模型学习到优化语言建模性能的子词。结果表明,学习子词分割是现有子词分割器的有效替代方案,可以发现类似词素的子词,以提高其语言模型的能力。
对比了三种分词算法在多种语言和词汇量上,发现 UnigramLM 算法在分词行为上的认知合理性较低,且派生形态的覆盖率较低。
Oct, 2023
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
研究探索低资源语言环境下,使用拼音转录进行意图分类的方法构建基于语音理解系统,并发现相较于使用语音特征的系统,使用拼音转录的系统具有显著的分类性能提升。
May, 2022
研究了在韩语语音识别中使用外部语言模型的 beam-search 解码方法,提出了一种新的韩语标记方法,即在韩语音节中无尾辅音时插入特殊标记 SkipTC,实验证明采用 SkipTC 标记可以使输入语言模型序列更规则化,能更好地学习韩语的语言特征,减少词误率。
Feb, 2022