优化端到端自动语音识别的字节级表示

Jun, 2024

优化端到端自动语音识别的字节级表示

Optimizing Byte-level Representation for End-to-end ASR

Roger Hsiao, Liuhui Deng, Erik McDermott, Ruchir Travadi, Xiaodan Zhuang

TL;DR我们提出了一种对字节级表示进行优化的新方法，通过使用自编码器和向量量化，在自动语音识别中实现更好的准确性。

Abstract

We propose a novel approach to optimizing a byte-level representation for end-to-end automatic speech recognition (ASR). byte-level representatio

byte-level representation automatic speech recognition multilingual asr utf-8 auto-encoder

发现论文，激发创造

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

本文提出了两个端到端模型：Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本，并且通过使用字节代替大的 softmax 函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Nov, 2018

适用于低资源语音识别的语言通用语音编码器

使用国际音标为基础的语言通用的语音模型在多语言音频识别中表现出良好效果，且通过自适应方法在极低资源语言的情况下改进了识别性能。

May, 2023

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

使用低比特量化来实现高效语音表示学习

我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。

Dec, 2022

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

多语言神经表示的端到端开放词汇关键词搜索

利用多语言预训练的神经 ASR-free 关键词搜索模型能够显著提高性能，并且在长查询和未出现在训练数据中的查询方面胜过基于 ASR 的系统。

Aug, 2023

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017