AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示

Dec, 2023

AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro

TL;DR该论文提出了一种新颖的直接音频 - 视觉转换技术，将输入和输出的系统处理音频和视觉语音，从而实现具有同步嘴部运动的实时对话体验，提高口译系统的鲁棒性，并利用自我监督学习来进行训练，来缓解无对应数据集的问题，并提出了一个能够生成音频和视频的 AV-Renderer。

Abstract

This paper proposes a novel direct Audio-Visual Speech to Audio-Visual Speech Translation (av2av) framework, where the input and output of the system are multimodal (i.e., audio and visual speech). With the propo

audio-visual speech to audio-visual speech translation multimodal synchronized lip movements spoken language translation av2av

发现论文，激发创造

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题，并提出在嘈杂环境下提高语音翻译效果的方法。

Mar, 2023

AVA-AVD: 野外音视频说话人分离

本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性，它创建了 AVA 音频 - 视觉扬声器分离（AVA-AVD）数据集和一种称为 AVR-Net 的新方法，通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。

Nov, 2021

文本和视频的桥梁：用于视频音频场景感知对话的通用多模态 Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020

AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。

Feb, 2023

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

AVLnet：从教育视频中学习音频 - 视觉语言表示

本文提出了一种自我监督网络 AVLnet，可从视频中直接学习共享的音频 - 视觉嵌入空间，并通过分析 AVLnet 的学习表示提出了一种三模态模型，用于学习多模态语义嵌入空间，其中包括用于音视频检索的文本标题。

Jun, 2020

AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

在这项工作中，我们介绍了 AV2Wav，这是一种基于重新综合的视听语音增强方法，可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集，然后在这个子集上训练扩散模型，该模型以 AV-HuBERT 的连续语音表示为条件生成波形，并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务，该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线，并且在听力测试中的质量接近目标语音。

Sep, 2023

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024