LiRA: 通过自监督学习从音频中学习视觉语音表示
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
Jul, 2020
RAVEn 是利用自主学习方法联合学习视觉和听觉语音表征的一种多模态方法,其预训练目标涉及编码掩码输入并预测由缓慢演化的动量编码器生成的文本内容。发现 RAVEn 在视觉语音识别(VSR)方面优于所有自主学习方法,并结合仅使用 30 小时标记数据的自训练方法甚至优于针对 90000 小时非公共数据训练的半监督方法。在 LRS3 低资源设置中,RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。
Dec, 2022
本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多语言胜过英文预训练,使用相似的语言效果更好,而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。
Mar, 2023
本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别,该方法在实验中表现出良好的效果,取得了相对改善 30% 的优越结果。
Feb, 2022
本研究探究了面部重建的视觉自监督方法辅助音频表示学习,提出了适用于语音表示学习的仅音频的自监督方法,比较了多任务的视听自监督与单一方式的自监督方法,发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时,本研究发现自监督学习可以胜过全监督学习并防止过拟合,通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。
May, 2020
本文提出了一种新的 Label Aware Speech Representation (LASR) 方法,将自我监督表示学习与语言标签信息相结合,使用三元组目标函数将语言标签与自我监督损失函数结合起来,并进一步优化语音表示以适用于下游任务,发现该方法比现有的语言识别系统更为有效,并可应用于多语音识别任务。
Jun, 2023
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。
Dec, 2022
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020
该论文提出了一种新颖的资源高效方法,利用任何训练过的自动语音识别(ASR)模型生成的语音表示来进行视觉语音识别(VSR)。通过远离最近文献中流行的资源密集型趋势,我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识,在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据,我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。在有限标记数据的微调之后,词错误率降至 35%(LRS2)和 45.7%(LRS3)。我们的模型可以在几天内在单个消费级 GPU 上进行训练,并能够在老旧硬件上实时进行端到端的 VSR,为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。
Dec, 2023