端到端多模态语音识别

Apr, 2018

End-to-End Multimodal Speech Recognition

Shruti Palaskar, Ramon Sanabria, Florian Metze

TL;DR探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Abstract

Transcription or sub-titling of open-domain videos is still a challenging domain for automatic speech recognition (ASR) due to the data's challenging acoustics, variable signal processing and the essentially unrestricted domain of the data. In previous work, we have shown that the visu

automatic speech recognition visual channels connectionist temporal classification sequence-to-sequence noisy video data

发现论文，激发创造

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

学习联合转录和字幕生成用于端到端自发语音识别

本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型，通过模型共享的编码器，同时预测语音和生成字幕，无需预处理，实现了 ASR 性能的提升。

Oct, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019

音频文本分类的级联交叉模态 Transformer

利用多模态表示，通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言，结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务，该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能，并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。

Jan, 2024

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

联合 CTC 损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合 CTC 和 SLU 损失的方法，实现了语音理解任务的话语级 SLU 模型，并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4％绝对值，在 SLURP 数据集上比 SOTA SLU 模型提高 1.3％绝对值。

May, 2023

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

联合语音识别和音频字幕

为了更好地解释语音样本中的背景噪声，并对内容进行全面理解，我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模，并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。

Feb, 2022

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017