倾听世界，提高语音命令识别

Oct, 2017

Listening to the World Improves Speech Command Recognition

Brian McMahan, Delip Rao

TL;DR研究卷积神经网络中的迁移学习在语音识别方面的应用，发现将来自不同任务的表示转移至声音专注的任务可以显著提高准确性。通过验证在音频数据集上使用更深层网络可以获得更好准确性的结果，提出一个使用扩张卷积的简单多尺度输入表示方法，以及通过将迁移学习和多尺度输入表示相结合来实现仅需要训练数据的 40% 即可获得相似准确性的模型。最后还提出多尺度输入和迁移学习的积极互动效应，表明两种技术的联合应用是有益的。

Abstract

We study transfer learning in convolutional network architectures applied to the task of recognizing audio, such as environmental sound events and speech commands. Our key finding is that not only is it possible

transfer learning convolutional network audio recognition multiscale input speech commands

发现论文，激发创造

使用卷积神经网络从弱标记音频进行知识转移，用于声音事件和场景

本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架，可用于转移学习，并证明了该方法对于领域和任务适应都具有有效性，此外还展示了该方法有助于捕捉语义含义和关系。

Nov, 2017

直接从波形中学习多尺度特征

本文详细介绍了一种使用卷积滤波器的方法，可以通过减少步幅增加时间分辨率，通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习，从而发现更高效的表示方法，并且相对于基于光谱图的同样参数网络训练，内部语音测试集上的词语错误率下降了 20.7％。

Mar, 2016

一种用于语音指令识别的神经注意力模型

本文介绍了一个使用卷积循环神经网络与注意力机制的语音指令识别模型，其创造了 94.1%（V1）和 94.5%（V2）的分类准确率，是同类模型中的新记录，并且该模型仅有 202K 个可以训练的参数，同时其提出的注意力机制不仅提高了性能，还允许可视化网络处理输入音频时所参考的区域。

Aug, 2018

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

低预算下的语音识别迁移学习

通过模型自适应的迁移学习方法，将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中，实现了在受限 GPU 内存、吞吐量和训练数据的情况下，基于消费级硬件实现更快的训练，同时减少了训练数据量，从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。

Jun, 2017

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

多模态转移深度学习及其在音视频识别中的应用

这篇论文提出了一种转移学习框架，能将单一模态神经网络的知识迁移到另一个模态的网络上，通过语音数据微调已经训练过的视频识别网络，该方法首先学习抽象表示层中每个网络的类比映射，然后应用神经网络操作进行目标网络的微调，同时保持其拓扑不变，该框架能灵活地适用于任何多模态数据集或已存在的共享基础语义的深度网络。

Dec, 2014

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021