通过声学和语义合作解码重新思考多模态视角下的语音识别

May, 2023

通过声学和语义合作解码重新思考多模态视角下的语音识别

Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding

Tian-Hao Zhang, Hai-Bo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu...

TL;DR该论文提出了一种声学和语义协同解码器 ASRD，可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽，可以防止在训练期间的信息泄漏，并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明，ASRD 可以显著提高 ASR 的准确性。

Abstract

Attention-based encoder-decoder (AED) models have shown impressive performance in asr. However, most existing AED methods neglect to simultaneously leverage both acoustic and semantic features in decoder, which i

attention-based encoder-decoder models asr acoustic and semantic features cooperative decoder causal multimodal mask

发现论文，激发创造

基于混合注意力的编码器 - 解码器模型用于高效语言模型适应

提出了一种新的混合注意力编码器 - 解码器（HAED）语音识别模型，通过分离声学模型和语言模型，以保留传统混合自动语音识别系统的模块化，实现了对传统基于文本的语言模型自适应技术的使用，从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率（WER）改进，并且在一般测试集上只有微小的词错误率（WER）退化。

Sep, 2023

情感识别的多模态和多视角模型

采用多种视图学习方法来结合语音和词汇信息，训练出不需要词汇输入的部署式语音模型，该模型采用对比损失函数进行训练，实验结果表明这种方法和传统的基于语音信息的方法相比，有更好的准确性和鲁棒性。

Jun, 2019

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

Jun, 2024

基于混合换能器和注意力编码器 - 解码器模型的语音转文本任务

通过结合 Transducer 和基于 Attention 的编码器 - 解码器 (AED) 框架，我们提出了一种新的 TAED 框架，它既具有非单调序列到序列学习的优势，又保持了 Transducer 的流式属性，通过在同一个语音编码器上共享模型来实现。在实验中，TAED 在离线 ASR 和 ST 任务中优于 Transducer，在流式任务中，TAED 在 ASR 任务和一个 ST 方向上表现优足以超越 Transducer。

May, 2023

多模态数据增强用于端到端语音识别

本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Mar, 2018

通过融合声学和语义信息来提高自动音频字幕生成的性能

本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Oct, 2021

MF-AED-AEC: 利用多模态融合、ASR 错误检测和 ASR 错误修正进行语音情感识别

本文介绍了一种引入 ASR 错误检测和修正的辅助任务来增强 ASR 文本的语义连贯性，并进一步提出了一种新颖的多模态融合方法，名为 MF-AED-AEC。实验结果表明，MF-AED-AEC 在性能上显著优于基线模型 4.1%。

Jan, 2024

4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模

本论文提出了四解码器联合建模 (4D) 的 CTC，关注机制，RNN-T 和掩码预测，旨在通过联合建模提高模型稳健性，在应用场景下轻松切换四个解码器，并通过一次解码方法进一步提高性能。

Dec, 2022

DSTC8-AVSD：多模态语义 Transformer 网络及检索式词汇生成器

提出了一种多模态语义变形器网络，基于注意力词嵌入层的变形器架构和查询单词嵌入层生成单词。该模型在 AVSD 任务中取得了优异的表现。

Apr, 2020

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024