极低资源并行数据下的自监督音频文本预训练

AAAIApr, 2022

极低资源并行数据下的自监督音频文本预训练

Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data

Yu Kang, Tianqiao Liu, Hang Li, Yang Hao, Wenbiao Ding

TL;DR本文旨在探讨在极低的跨模态数据情况下，通过利用单模态数据和翻译噪声特征进行训练，达到音频 - 文本模态的预训练效果，并证明本方法在很多语言上的表现与全并行语音 - 文本预训练数据相当。

Abstract

multimodal pre-training for audio-and-text has recently been proved to be effective and has significantly improved the performance of many downstream speech understanding tasks. However, these state-of-the-art pr

multimodal pre-training audio-and-text low-resource denoising auto-encoding cross-modal

发现论文，激发创造

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

基于双向注意力的语音文本多模态训练，提高语音识别能力

采用双向注意力机制的多模态学习方法，能够有效地提升语音表示的语言信息，增强文本的语音表示，从而使共享的 ASR 模型更适用于无配对的文本数据预训练，仅使用配对数据学习时，单词错误率减少了 6.15％，使用更多无配对文本数据时，错误率减少了 9.23％。

Nov, 2022

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Nov, 2022

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

通过视觉知识转移在无平行数据的情况下，连接音频和文本之间的关联

提出了一种称为 VIP-ANT 的模型，实现了音频文本无对齐数据的自动对齐，应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能，甚至超越了更传统的监督学习模型。同时也发现，虽然仅需一些监督数据就可以提高性能，但达到人类水平仍然需要更大规模的数据。

Dec, 2021

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022