本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多语言胜过英文预训练,使用相似的语言效果更好,而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。
Mar, 2023
我们提出了一种增强的视频语言预训练框架,使用同步音频,可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下,取得了相对于现有基准的改进结果,并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。
May, 2024
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020
本文提出了一种自我监督网络 AVLnet,可从视频中直接学习共享的音频 - 视觉嵌入空间,并通过分析 AVLnet 的学习表示提出了一种三模态模型,用于学习多模态语义嵌入空间,其中包括用于音视频检索的文本标题。
Jun, 2020
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
探索了音视频流之间对应关系,并提出了利用该信息实现的自我监督视听学习任务,结果表明该方法成功解决了问题,并展现出良好的视听表征,可以将其应用于声音分类、物体定位和细粒度识别任务。
May, 2017
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频 - 语言基准上取得了显著结果。
Jan, 2024
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019