AudioScenic：音频驱动的视频场景编辑

Apr, 2024

AudioScenic：音频驱动的视频场景编辑

AudioScenic: Audio-Driven Video Scene Editing

Kaixin Shen, Ruijie Quan, Linchao Zhu, Jun Xiao, Yi Yang

TL;DR通过音频信号调整视觉背景，保持前景内容不变，本文介绍了 AudioScenic，一个用于视频场景编辑的音频驱动框架。通过时间感知的音频语义注入过程将音频语义整合到视觉场景中，同时引入 SceneMasker 模块来在编辑过程中保持前景内容的完整性，利用音频信号的特性来控制时间动态并增强时间一致性，从而达到增强视觉多样性和维护视频整体时间一致性的目的。

Abstract

audio-driven visual scene editing endeavors to manipulate the visual background while leaving the foreground content unchanged, according to the given audio signals. Unlike current efforts focusing primarily on image editing, audio-driven →

audio-driven visual scene editing audioscenic video scene editing temporal dynamics temporal consistency

发现论文，激发创造

通过利用音频场景语义实现自动图像着色

通过利用音频的额外语义信息，本文提出了一种新颖的自动图像上色网络（AIAIC），它由三个阶段组成，通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色，实验表明音频引导能够有效改善自动着色的性能，特别是对于那些仅仅从视觉模态理解起来比较困难的场景。

Jan, 2024

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

地理标记音视航拍场景识别的跨任务传递

利用声音信息结合图像信息进行空中场景识别，通过构建新的 AVANET 数据集，通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中，提高识别效果。

May, 2020

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以 VGGSound 为基础的数据集 AVSync15，其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD，能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

基于语音驱动的用户生成内容配音：风格感知半参数合成

本文研究了一种音频驱动的配音方法，适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化，该方法可以准确保留不同的说话风格，并且相较于现有方法具有更低的训练数据和训练时间需求，以及更快的测试速度。

Aug, 2023

使用 AudioScope 探索野外：屏幕上声音的无监督音频 - 视觉分离

本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架，在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练（MixIT）对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。

Nov, 2020

音频线索加强的音频视觉分割引导

提出了 AVSAC 方法，通过构建双向音频 - 视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外，提出了音频 - 视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频 - 视觉表示学习。大量实验证明，该方法在 AVS 性能方面取得了新的突破。

Feb, 2024