学习联合转录和字幕生成用于端到端自发语音识别

Oct, 2022

学习联合转录和字幕生成用于端到端自发语音识别

Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous Speech Recognition

Jakob Poncelet, Hugo Van hamme

TL;DR本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型，通过模型共享的编码器，同时预测语音和生成字幕，无需预处理，实现了 ASR 性能的提升。

Abstract

tv subtitles are a rich source of transcriptions of many types of speech, ranging from read speech in news reports to conversational and spontaneous speech in talk shows and soaps. However, subtitles are not verbatim (i.e. exact) transcriptions of speech, so they cannot be used directl

tv subtitles asr transformer model multitask learning speech transcription

发现论文，激发创造

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

双重解码生成标题和字幕

本文介绍了一种双重解码方案，以达到自动字幕和字幕紧密耦合的目的，并展示了如何在模型大小和训练复杂性方面几乎不增加成本的情况下提高其足够性和一致性。

May, 2022

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

自动字幕直接语音翻译

本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型，与现有的级联模型相比，在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。

Sep, 2022

双解码器变压器模型实现联合自动语音识别与多语言语音翻译

本文介绍了双解码器 Transformer 的新模型架构，该模型同时执行自动语音识别和多语言语音翻译。我们的模型基于原始 Transformer 体系结构，但由两个解码器组成，每个解码器负责一个任务（ASR 或 ST），并通过双关注机制相互交互。我们提出了两种不同的体系结构变体，分别对应于解码器之间的两个不同层次的依赖关系，称为并行双解码器 Transformer 和交叉双解码器 Transformer。我们在 MuST-C 数据集上进行了大量实验，结果显示我们的模型在多语言设置中优于以前报道的最高翻译性能，并且也优于双语一对一结果。此外，我们的并行模型相对于香草多任务体系结构在 ASR 和 ST 之间没有权衡。

Nov, 2020

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

联合语音识别和音频字幕

为了更好地解释语音样本中的背景噪声，并对内容进行全面理解，我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模，并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。

Feb, 2022