跨语言视觉言语表征学习

Mar, 2023

Learning Cross-lingual Visual Speech Representations

Andreas Zinonos, Alexandros Haliassos, Pingchuan Ma, Stavros Petridis, Maja Pantic

TL;DR本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Abstract

cross-lingual self-supervised learning has been a growing research topic in the last few years. However, current works only explored the use of audio signals to create representations. In this work, we study cross-lingual self-supervised →

cross-lingual self-supervised learning visual representation learning raven framework multilingual data non-english speech representation learning

发现论文，激发创造

从原始数据中联合学习视觉和听觉语音表征

RAVEn 是利用自主学习方法联合学习视觉和听觉语音表征的一种多模态方法，其预训练目标涉及编码掩码输入并预测由缓慢演化的动量编码器生成的文本内容。发现 RAVEn 在视觉语音识别（VSR）方面优于所有自主学习方法，并结合仅使用 30 小时标记数据的自训练方法甚至优于针对 90000 小时非公共数据训练的半监督方法。在 LRS3 低资源设置中，RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。

Dec, 2022

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

Mar, 2024

来自视频的级联多语言视听学习

这篇论文探讨了自监督学习模型在多语言环境下的应用，通过级联方法，将英语训练好的模型应用于日语视频和图片的字幕，取得了最新颖的表现。

Nov, 2021

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

CLARA：音频表征获取的多语言对比学习

提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Oct, 2023

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

我们提出了 BRAVEn，这是对最近的 RAVEn 方法的扩展，完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者，并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结果表明，现成的未标记音频 - 视觉数据可以在很大程度上代替昂贵的转录数据。

Apr, 2024

LiRA: 通过自监督学习从音频中学习视觉语音表示

该研究提出了利用声音训练人脸运动的模型以提高口语阅读的准确度。

Jun, 2021

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。

Oct, 2018