VCSE: 时域视觉语境说话人提取网络

Oct, 2022

VCSE: 时域视觉语境说话人提取网络

VCSE: Time-Domain Visual-Contextual Speaker Extraction Network

Junjie Li, Meng Ge, Zexu Pan, Longbiao Wang, Jianwu Dang

TL;DR本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Abstract

speaker extraction seeks to extract the target speech in a multi-talker scenario given an auxiliary reference. Such reference can be auditory, i.e., a pre-recorded speech, visual, i.e., lip movements, or contextual, i.e., phonetic sequence. References in different modalities provide di

speaker extraction multi-talker scenario visual-contextual cues lip reading sentences 3 state-of-the-art baselines

发现论文，激发创造

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

音频 - 视觉交叉模态条件语音提取中的分离

AVSepChain 是一种多模态学习方法，通过将音频 - 视觉目标语音提取任务分为两个阶段（语音感知和语音产生），改善了模态不平衡的问题，并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致，实验结果表明该方法在多个基准数据集上具有卓越的性能。

Apr, 2024

轻量级音视话语增强

本研究提出了一种 “轻量级视听语音增强” 系统（LAVSE），该系统通过采用两种视觉数据压缩技术和去除训练模型中的人脸或唇部图像的特征提取网络，以达到更好的在线计算效率和更好的性能，从而在保障隐私的前提下，实现了比仅使用音频的增强系统更出色的性能表现。

May, 2020

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别

本文提出了一种噪声强韧的端到端的视听语音识别系统，其中使用视觉背景驱动音频特征增强模块（V-CAFE）通过考虑所获得的视觉背景来生成噪声降低掩模，进而提升音频特征，结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性，并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。

Jul, 2022

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Apr, 2022

在鸡尾酒会上输入以聆听：文本引导的目标说话人提取

通过结合自然语言处理，本研究提出了一种名为 LLM-TSE 的模型，可以提取用户输入的文本信息中的有用语义线索，辅助预注册线索或独立控制目标说话人提取过程。实验结果表明，当仅使用文本线索时，性能表现有竞争力，并且结合预注册声学线索时，创造了新的最先进水平。据我们所知，这是首个成功将文本线索纳入目标说话人提取任务的研究，可作为研究鸡尾酒会问题的基石。

Oct, 2023

适应说话者的端到端连续西班牙语视觉语音识别

利用西班牙 LIP-RTVE 数据库，本文研究了如何通过专门训练的端到端系统来改善语音识别质量，结果表明，通过演讲者适应，可以显著提高 VSR 系统的性能，并且即使只有有限的数据时，也可以达到与当前最先进技术相媲美的结果。

Nov, 2023