多模态数据增强用于端到端语音识别

Mar, 2018

多模态数据增强用于端到端语音识别

Multi-Modal Data Augmentation for End-to-End ASR

Adithya Renduchintala, Shuoyang Ding, Matthew Wiesner, Shinji Watanabe

TL;DR本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Abstract

We present a new end-to-end architecture for automatic speech recognition (ASR) that can be trained using \emph{symbolic} input in addition to the traditional acoustic input. This architecture utilizes two separa

automatic speech recognition multi-modal data augmentation network symbolic input acoustic input language model

发现论文，激发创造

通过声学和语义合作解码重新思考多模态视角下的语音识别

该论文提出了一种声学和语义协同解码器 ASRD，可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽，可以防止在训练期间的信息泄漏，并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明，ASRD 可以显著提高 ASR 的准确性。

May, 2023

基于模块化领域自适应的 Conformer 流式自动语音识别

本文提出了一种名为模块化域自适应的框架，通过向 Conformer 编码器中添加适合各个域的适配器和前馈网络，使单个 Conformer transducer 模型能够处理各个领域的语音数据，从而大幅提升了语音识别的性能。

May, 2023

跨语言语音情感识别：使用多模态双重注意力变换器

本研究提出了一个利用基于多模态双重注意力变换器模型，结合图注意力与协同注意力，以提高跨语言情感识别性能，在 4 个公开数据集中获得了优秀表现的方法。该方法在高层次特征表示方面利用 Transformer 编码层来提高情感分类精度，并通过在各个阶段对特征表示进行细化以提供情感显著特征，既保留特定模态的情感信息又增强了跨模态和跨语言交互。

Jun, 2023

一种使用简单数据增强技术的全面依赖文本的端到端发音错误检测和诊断方法

本文提出了一种新颖的文本依赖模型来利用前置文本，通过注意力机制将音频与前置文本的音素序列对齐，来实现完全的端到端结构，同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题，并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标，相较 CNN-RNN-CTC 模型有明显提升。

Apr, 2021

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

我们提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知，这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合语音中，与之前提出的单通道和多通道方法相比，我们的系统将词错误率（WER）相对降低了 12% 和 16%。此外，我们还研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。最后，我们在 AMI 语料库上对我们的系统进行了实验，确认了我们系统在真实多通道会议转录中的有效性。

Oct, 2023

基于双向注意力的语音文本多模态训练，提高语音识别能力

采用双向注意力机制的多模态学习方法，能够有效地提升语音表示的语言信息，增强文本的语音表示，从而使共享的 ASR 模型更适用于无配对的文本数据预训练，仅使用配对数据学习时，单词错误率减少了 6.15％，使用更多无配对文本数据时，错误率减少了 9.23％。

Nov, 2022

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

基于反向翻译的端到端自动语音识别数据增强

通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器，实现数据增强的自动语音识别方法，提高了性能和减少了未知词的数量。

Jul, 2018

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018