MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

Mar, 2023

MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition

Xize Cheng, Linjun Li, Tao Jin, Rongjie Huang, Wang Lin...

TL;DR本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题，并提出在嘈杂环境下提高语音翻译效果的方法。

Abstract

Multi-media communications facilitate global interaction among people. However, despite researchers exploring cross-lingual translation techniques such as machine translation and audio speech translation to overc

multimedia communication cross-lingual translation visual speech dataset speech translation

发现论文，激发创造

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示

该论文提出了一种新颖的直接音频 - 视觉转换技术，将输入和输出的系统处理音频和视觉语音，从而实现具有同步嘴部运动的实时对话体验，提高口译系统的鲁棒性，并利用自我监督学习来进行训练，来缓解无对应数据集的问题，并提出了一个能够生成音频和视频的 AV-Renderer。

Dec, 2023

音频 - 视觉交叉模态条件语音提取中的分离

AVSepChain 是一种多模态学习方法，通过将音频 - 视觉目标语音提取任务分为两个阶段（语音感知和语音产生），改善了模态不平衡的问题，并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致，实验结果表明该方法在多个基准数据集上具有卓越的性能。

Apr, 2024

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

Mar, 2024

MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库

MuAViC 是首个开放的多语言视听数据集，共提供了 1200 小时覆盖 9 种语言的视听数据，可应用于嘈杂环境下的语音识别和翻译模型构建。

Mar, 2023

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

文本和视频的桥梁：用于视频音频场景感知对话的通用多模态 Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020