T-FOLEY：一种可控的波形领域扩散模型用于时间事件引导的福利音合成

Jan, 2024

T-FOLEY：一种可控的波形领域扩散模型用于时间事件引导的福利音合成

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

Yoonjin Chung, Junwon Lee, Juhan Nam

TL;DRT-Foley 是一种基于时间事件引导的波形生成模型，用于合成弗雷音效。该模型利用声音类别和时间事件特征生成高质量的音频，并且在客观和主观评估指标上显示出卓越的性能，能够与时间事件很好地同步生成 Foley 音效。

Abstract

foley sound, audio content inserted synchronously with videos, plays a critical role in the user experience of multimedia content. Recently, there has been active research in →

foley sound audio content deep generative models temporal event foley sound synthesis

发现论文，激发创造

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

FoleyCrafter: 用真实且同步的声音赋予无声视频生机

通过使用 FoleyCrafter 框架，结合语义对齐和音视频同步，实现高质量音效与视频的同步生成，满足用户意图。

Jul, 2024

一份关于佛利音效合成挑战的提案

本文旨在探索利用机器辅助技术进行 Foley 音效合成的新方法并提出了一个详细的 Foley 合成挑战，包括任务定义、数据集需求和评估标准。

Jul, 2022

AutoFoley：基于深度学习的无声视频同步音轨的人工合成

AutoFoley 是一种应用于视频的全自动深度学习工具，它采用了多种技术以识别关键情节并提供与画面同步的渲染音轨，实现了高度逼真和可信的声音合成效果。

Feb, 2020

Diff-Foley: 基于潜在扩散模型的同步视频 - 音频合成

使用 Diff-Foley 方法和潜在扩散模型进行音频与视频同步生成，其在现有的大规模数据集上取得了最先进的性能。

Jun, 2023

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021

通过模拟 Foley 来从视频生成音频的条件生成

本文提出了针对视频的音效创建挑战的条件 Foley 问题，通过一种先决条件任务和一种生成模型，成功实现了在保证内容遵循用户提供的音频示例的前提下生成音效。

Apr, 2023

SyncFusion：多模始发同步的视频 - 音频佛利合成

我们提出了一种从视频中提取重复动作起点的系统，并结合音频或文本嵌入到一个训练好的扩散模型中，从而生成一个新的同步音效音轨，有效减轻声音设计师与视频同步的负担，简化声音处理的过程。

Oct, 2023

学习生成寂静视频的逼真音频的初步探索

通过深度学习的框架及改进的人工音频生成技术，本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构，其中基于 Transformer 的架构效果最为优秀，能有效地匹配低频的视觉模式，但在生成细微波形方面表现不佳。

Aug, 2023

应用于音频合成中的时频特征对抗生成

本文研究 TF 表示的生成建模以及音频的生成，使用短时傅里叶变换讨论了在生成可逆的 TF 特征上合成音频的挑战和方法，并通过训练 GAN 演示了基于生成 TF 建模的潜力。

Feb, 2019