多模态深度卷积神经网络实现音视频语音增强

Sep, 2017

多模态深度卷积神经网络实现音视频语音增强

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Jen-Cheng Hou, Syu-Siang Wang, Ying-Hui Lai, Yu Tsao, Hsiu-Wen Chang...

TL;DR提出了一种音视频深度卷积神经网络（AVDCNN）语音增强模型，该模型在音频处理方面结合了视觉信息，并采用多任务学习框架进行重建音频和视觉信号。实验表明，该模型在语音增强方面表现显著优异，证明了整合视觉信息的有效性，并且优于现有的音频 - 视觉增强模型。

Abstract

speech enhancement (SE) aims to reduce noise in speech signals. Most SE techniques focus only on addressing audio information. In this work, inspired by multimodal learning, which utilizes data from different mod

speech enhancement multimodal learning convolutional neural networks audio-visual multi-task learning

发现论文，激发创造

基于 3D 卷积神经网络的跨模态音视频匹配识别

本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Jun, 2017

深度学习音 - 视觉语音增强的训练目标和目标函数

研究采用深度学习技术解决音视频语音增强任务时，目标量和目标函数的选择对性能至关重要；本实验研究了一系列不同的目标量和目标函数，结果表明直接估计掩模的方法在估计语音质量和可懂度方面表现最佳。

Nov, 2018

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

双模态循环神经模型的端到端音视频语音活动检测

本研究提出了一种使用双模态循环神经网络（BRNN）的音视频系统来实现语音活动检测（SAD），它可以从原始数据中直接学习音频和视觉特征，提高在嘈杂环境下的鲁棒性，结果表明该方法在实际场景中的效果比只使用深度神经网络（DNN）实现的语音检测系统提高了 1.2%，在嘈杂环境下使用平板电脑传感器评估的 F1 评分为 92.7%，仅比理想条件下高清摄像机和近距离话筒获取干净语音时的性能低 1.0%。

Sep, 2018