Action2Sound: 环境感知的从自我为中心视频生成行动声音

Jun, 2024

Action2Sound: 环境感知的从自我为中心视频生成行动声音

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu...

TL;DR提出了一种新颖的环境感知音频生成模型，用于根据视频内容生成符合语义和时间要求的音频；使用了特殊的音频条件机制，以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。

Abstract

Generating realistic audio for human interactions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in u

audio generation ambient-aware foreground action sounds retrieval-augmented generation video-to-audio generation

发现论文，激发创造

SoundingActions：从自述的视觉记录视频中学习动作的声音

我们提出了一种新的自监督嵌入方法，通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入（MC3）在所有模态对都匹配时增强音频、语言和视觉之间的关联性，而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音，超过了多种最新的多模态嵌入技术在两个数据集（Ego4D 和 EPIC-Sounds）和多个跨模态任务上的表现。

Apr, 2024

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

基于风格转移的语音和视觉场景理解，用于机器人从视频中获取操作序列

本文介绍一种从指令视频中生成机器人动作序列的方法，用于实现人机协作，并展示了该方法在各种烹饪动作中的成功率达到 32%。

Jun, 2023

Sound2Sight：从声音和上下文生成视觉动态

本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型，通过学习音频及以前帧的联合嵌入，学习每一帧的随机先验知识，并生成未来视频及其动态信息。此外，还通过多模态鉴别器强化了生成框架的视频质量和一致性，实验表明该方法可以生成高质量和多样化的视频。

Jul, 2020

LEGO: 通过视觉指导调整学习自我中心动作帧生成

从以自身为中心的视角生成人类日常行为的指导性图像是有效的技能传递的一个关键步骤。本文提出了一个新颖的问题 —— 以自身为中心的动作帧生成。目标是根据用户提示问题和捕捉用户环境的输入自身中心图像，合成动作帧。值得注意的是，现有的自身中心数据集缺乏描述动作执行的详细注释。此外，基于扩散的图像操作模型无法控制动作在相应自身中心图像像素空间内的状态变化。为此，我们通过视觉指导优化自然语言大型模型（VLLM），以充实的动作描述进行微调，以解决我们提出的问题。此外，我们还提出利用来自 VLLM 的图像和文本嵌入作为附加条件的 Learn EGOcentric（LEGO）动作帧生成方法。我们在两个自身中心数据集 ——Ego4D 和 Epic-Kitchens 上验证了我们的模型。我们的实验证明，在定量和定性评估方面，我们的提出的模型相较于先前的图像操作模型有显著改进。我们还进行了详细的消融研究和分析，为我们的方法提供了深入认识。

Dec, 2023

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

第一人称动作识别中基于音视频相对归一化校准的领域泛化

介绍了第一个针对自我中心活动识别的域泛化方法，通过提出一种新的音频 - 视觉损失函数，相对规范对齐，在不同领域中通过对齐两种特征规范，重新平衡两种模态的贡献，可以在 EPIC-Kitchens-55 和 EPIC-Kitchens-100 上实现域泛化和域自适应。

Oct, 2021