鲁棒的多模态语音修复：一种序列到序列的方法

Jun, 2024

鲁棒的多模态语音修复：一种序列到序列的方法

Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach

Mahsa Kadkhodaei Elyaderani, Shahram Shirani

TL;DR通过引入 AV 特征，我们研究了一种序列到序列（seq2seq）语音修复模型，将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中，实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时，我们利用多任务学习框架，在恢复相关语音的同时进行口型阅读（将视频组件转录为文本）。

Abstract

The process of reconstructing missing parts of speech audio from context is called speech in-painting. Human perception of speech is inherently multi-modal, involving both audio and visual (AV) cues. In this paper, we introduce and study a sequence-to-sequence (seq2seq) →

speech in-painting av features multi-modal training seq2seq architecture multi-task learning

发现论文，激发创造

序列到序列多模态语音修复

该研究提出了一种新颖的序列到序列模型，通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号，证明了多模态方法在语音修复中的有效性。

Jun, 2024

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

基于深度学习的音视频言语修复

本文介绍了一种基于深度学习的框架，用于音频 - 视觉的语音修复，展示了多任务学习与视觉信息对语音信号修复的有效贡献并比较了仅音频信息下的表现。

Oct, 2020

基于视觉技术的深度音频修复

本文提出了一种名为视觉信息注入音频修补的多模态感知任务，通过学习视觉 - 音频联合特征空间，并在语音谱图上进行操作，能够修补音频中的缺失部分，实现音频与视频同步，经过大规模实验验证该方法的有效性。

Oct, 2019

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

音视频自监督引导的深度视频修复

通过提出的两个新损失函数：音频 - 视觉关注损失和音频 - 视觉伪类一致性损失，我们向视频修复网络传递音频 - 视觉对应关系的先验知识，进而提高视频修复的性能。实验证明，我们的方法可以更好地恢复更广泛的视频场景，并且在场景中的声音对象局部遮挡时特别有效。

Oct, 2023

看能增强听：使用图像恢复丢失的语音

本研究探讨了利用图像确立语音识别模型中文字的语义含义，以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能，增强语音信号对语音识别的帮助

Feb, 2020

填补空缺！结合自监督表示学习与神经声音合成实现语音修复

使用语音自监督学习模型进行语音修复任务时，选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据，提供了有效的信号重建策略。

May, 2024

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018