轻量级迭代模型在嘈杂环境下的音像语音分离

May, 2023

轻量级迭代模型在嘈杂环境下的音像语音分离

Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model

Héctor Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann

TL;DR本文提出了一种名为 AVLIT 的轻量级神经网络，使用渐进学习（PL）在嘈杂的环境中进行音视频语音分离。通过异步完全循环卷积神经网络（A-FRCNN）的结构分支，我们的模型在音频和视觉两个分支下进行迭代学习，并在音频和视觉分离方面表现出较高的精度。同时由于模型尺寸小，因此适合低资源环境应用。

Abstract

We propose audio-visual Lightweight ITerative model (AVLIT), an effective and lightweight neural network that uses Progressive Learning (PL) to perform →

audio-visual neural network speech separation noisy environments low resource applications

发现论文，激发创造

寻找鸡尾酒会中的发言者：一种基于音视频模型的独立演讲分离方法

我们提出了一种联合音频 - 视觉模型，用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号，并且利用深度学习和 AVSpeech 数据集，实现了人脸指定后的语音分离任务，相较于仅使用音频的方法，在多说话人的情况下表现出更好的效果。

Apr, 2018

AVLnet：从教育视频中学习音频 - 视觉语言表示

本文提出了一种自我监督网络 AVLnet，可从视频中直接学习共享的音频 - 视觉嵌入空间，并通过分析 AVLnet 的学习表示提出了一种三模态模型，用于学习多模态语义嵌入空间，其中包括用于音视频检索的文本标题。

Jun, 2020

使用异步完全循环卷积神经网络进行语音分离

本论文提出采用一种名为全循环卷积神经网络（Fully Recurrent Convolutional Neural Network, FRCNN）的生物启发式体系结构来解决语音分离任务，并通过异步更新机制，在三个基准数据集上显著提高了语音分离精度和计算效率。

Dec, 2021

音视频语音识别的循环神经网络转录器

本研究提出了一种基于循环神经网络转录者（RNN-T）架构的大规模视音频语音识别系统，并通过比较语音，视觉和视听系统在两个大词汇测试集上的表现，以及在带噪声和重叠的人工干扰的数据上的表现，突显了视觉模态的贡献。据我们所知，我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。

Nov, 2019

基于神经网络剪枝的迭代微调设计紧凑型视听唤醒词识别系统研究

本文提出了一种使用神经网络剪枝策略的紧凑型音视频唤醒词识别系统，该系统利用 MobileNet 对唇部信息进行编码，并与声学特征进行融合，大大提高了在不同噪声条件下的唤醒词识别性能，可望在电视开机场景下实现实际应用。

Feb, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

Mar, 2024

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

音频 - 视觉微调的音频识别模型

使用简单且快速的音频自我监督学习方法，并进行音视频模型的有指导微调，可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争，并且更为高效和快速。

Dec, 2023