AudioScenic:音频驱动的视频场景编辑
通过利用音频的额外语义信息,本文提出了一种新颖的自动图像上色网络(AIAIC),它由三个阶段组成,通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色,实验表明音频引导能够有效改善自动着色的性能,特别是对于那些仅仅从视觉模态理解起来比较困难的场景。
Jan, 2024
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
利用声音信息结合图像信息进行空中场景识别,通过构建新的 AVANET 数据集,通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中,提高识别效果。
May, 2020
当前的视觉生成方法可以通过文本生成高质量的视频,但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画(ASVA),这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此,我们提出了一个以 VGGSound 为基础的数据集 AVSync15,其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准,并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力,从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。
Mar, 2024
本文提出了一种基于数据驱动学习的音视频感知对话基准方法,采用注意力机制从海量传感器中区分实用信号和干扰信号,实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。
Apr, 2019
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
本文研究了一种音频驱动的配音方法,适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化,该方法可以准确保留不同的说话风格,并且相较于现有方法具有更低的训练数据和训练时间需求,以及更快的测试速度。
Aug, 2023
本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架,在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练(MixIT)对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。
Nov, 2020
提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步音频组件与视觉特征,有助于更平衡的音频 - 视觉表示学习。大量实验证明,该方法在 AVS 性能方面取得了新的突破。
Feb, 2024