Synchformer: 从稀疏提示实现高效同步
探讨基于多模态转换模型处理视频的音视频同步问题,提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题,验证了该方法在稀疏和密集同步数据集上的优越性。
Oct, 2022
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
当前的视觉生成方法可以通过文本生成高质量的视频,但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画(ASVA),这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此,我们提出了一个以 VGGSound 为基础的数据集 AVSync15,其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准,并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力,从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。
Mar, 2024
我们提出了一种增强的视频语言预训练框架,使用同步音频,可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下,取得了相对于现有基准的改进结果,并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。
May, 2024
Visual Speech Recognition (VSR) aims to interpret spoken content from visual cues, and SyncVSR presents an end-to-end learning framework that synchronizes visual representation with acoustic data, achieving state-of-the-art results while reducing data usage by up to ninefold.
Jun, 2024
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023