一份关于佛利音效合成挑战的提案

Jul, 2022

一份关于佛利音效合成挑战的提案

A Proposal for Foley Sound Synthesis Challenge

Keunwoo Choi, Sangshin Oh, Minsung Kang, Brian McFee

TL;DR本文旨在探索利用机器辅助技术进行 Foley 音效合成的新方法并提出了一个详细的 Foley 合成挑战，包括任务定义、数据集需求和评估标准。

Abstract

"foley" refers to sound effects that are added to multimedia during post-production to enhance its perceived acoustic properties, e.g., by simulating the sounds of footsteps, ambient environmental sounds, or visi

foley sound effects machine-assisted techniques foley synthesis evaluation criteria

发现论文，激发创造

AutoFoley：基于深度学习的无声视频同步音轨的人工合成

AutoFoley 是一种应用于视频的全自动深度学习工具，它采用了多种技术以识别关键情节并提供与画面同步的渲染音轨，实现了高度逼真和可信的声音合成效果。

Feb, 2020

通过模拟 Foley 来从视频生成音频的条件生成

本文提出了针对视频的音效创建挑战的条件 Foley 问题，通过一种先决条件任务和一种生成模型，成功实现了在保证内容遵循用户提供的音频示例的前提下生成音效。

Apr, 2023

学习生成寂静视频的逼真音频的初步探索

通过深度学习的框架及改进的人工音频生成技术，本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构，其中基于 Transformer 的架构效果最为优秀，能有效地匹配低频的视觉模式，但在生成细微波形方面表现不佳。

Aug, 2023

T-FOLEY：一种可控的波形领域扩散模型用于时间事件引导的福利音合成

T-Foley 是一种基于时间事件引导的波形生成模型，用于合成弗雷音效。该模型利用声音类别和时间事件特征生成高质量的音频，并且在客观和主观评估指标上显示出卓越的性能，能够与时间事件很好地同步生成 Foley 音效。

Jan, 2024

SyncFusion：多模始发同步的视频 - 音频佛利合成

我们提出了一种从视频中提取重复动作起点的系统，并结合音频或文本嵌入到一个训练好的扩散模型中，从而生成一个新的同步音效音轨，有效减轻声音设计师与视频同步的负担，简化声音处理的过程。

Oct, 2023

从视频学习生成音乐的福利音乐

本文介绍了 Foley Music 系统，该系统能够为视频生成逼真的音乐。该系统将视频转换为基于运动的 MIDI 事件，然后利用 Graph-Transformer 框架精确地预测 MIDI 事件序列并转换为逼真的音乐，同时还具有完全可解释和透明的 MIDI 表示形式，可以实现灵活的音乐编辑。实验结果表明，该系统在生成宜人的音乐方面优于现有的几个系统。

Jul, 2020

FALL-E: 佛利音效合成模型与策略

本文介绍了 FALL-E—— 一个 foley 合成系统及其训练 / 推理策略，FALL-E 采用级联方法，由低分辨率谱图生成、谱图超分辨率和声码器组成，利用数据集训练每个与声音相关的模型，并利用预训练的语言模型，通过数据集特定的文本对模型进行条件设定。在 DCASE 2023 挑战任务 7 的客观测试和听辨测试中，FALL-E 取得了第二名的好成绩，在多样性得分上排名第一，在音质上排名第二，在分类适应度上排名第三。

Jun, 2023

FoleyCrafter: 用真实且同步的声音赋予无声视频生机

通过使用 FoleyCrafter 框架，结合语义对齐和音视频同步，实现高质量音效与视频的同步生成，满足用户意图。

Jul, 2024

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021