本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
本文提出了两个端到端模型:Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A),用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本,并且通过使用字节代替大的 softmax 函数,不同语言之间可以共享表示。同时通过引入字节表示,作者在单语言和多语言模型的表现中都获得了很好的结果。
Nov, 2018
使用国际音标为基础的语言通用的语音模型在多语言音频识别中表现出良好效果,且通过自适应方法在极低资源语言的情况下改进了识别性能。
May, 2023
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
我们对语音表示学习模型应用最近的量化技术,并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比,在 ASR 任务上,2 比特配置的存储更小,字错率更低,估计的运行时间更高效。
Dec, 2022
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到 8 位定点精度,将全精度模型的参数数量减小并将模型进一步压缩 4 倍,同时维持模型高精度。
Nov, 2019
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
利用多语言预训练的神经 ASR-free 关键词搜索模型能够显著提高性能,并且在长查询和未出现在训练数据中的查询方面胜过基于 ASR 的系统。
Aug, 2023
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017