一份关于佛利音效合成挑战的提案
AutoFoley 是一种应用于视频的全自动深度学习工具,它采用了多种技术以识别关键情节并提供与画面同步的渲染音轨,实现了高度逼真和可信的声音合成效果。
Feb, 2020
本文提出了针对视频的音效创建挑战的条件 Foley 问题,通过一种先决条件任务和一种生成模型,成功实现了在保证内容遵循用户提供的音频示例的前提下生成音效。
Apr, 2023
通过深度学习的框架及改进的人工音频生成技术,本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构,其中基于 Transformer 的架构效果最为优秀,能有效地匹配低频的视觉模式,但在生成细微波形方面表现不佳。
Aug, 2023
T-Foley 是一种基于时间事件引导的波形生成模型,用于合成弗雷音效。该模型利用声音类别和时间事件特征生成高质量的音频,并且在客观和主观评估指标上显示出卓越的性能,能够与时间事件很好地同步生成 Foley 音效。
Jan, 2024
我们提出了一种从视频中提取重复动作起点的系统,并结合音频或文本嵌入到一个训练好的扩散模型中,从而生成一个新的同步音效音轨,有效减轻声音设计师与视频同步的负担,简化声音处理的过程。
Oct, 2023
本文介绍了 Foley Music 系统,该系统能够为视频生成逼真的音乐。该系统将视频转换为基于运动的 MIDI 事件,然后利用 Graph-Transformer 框架精确地预测 MIDI 事件序列并转换为逼真的音乐,同时还具有完全可解释和透明的 MIDI 表示形式,可以实现灵活的音乐编辑。实验结果表明,该系统在生成宜人的音乐方面优于现有的几个系统。
Jul, 2020
本文介绍了 FALL-E—— 一个 foley 合成系统及其训练 / 推理策略,FALL-E 采用级联方法,由低分辨率谱图生成、谱图超分辨率和声码器组成,利用数据集训练每个与声音相关的模型,并利用预训练的语言模型,通过数据集特定的文本对模型进行条件设定。在 DCASE 2023 挑战任务 7 的客观测试和听辨测试中,FALL-E 取得了第二名的好成绩,在多样性得分上排名第一,在音质上排名第二,在分类适应度上排名第三。
Jun, 2023
本研究提出了一种基于扩散模型的 Foley 声音生成系统,该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习,将该模型初始化地进行了预训练,以缓解数据不足问题。实验结果表明,该方法显着提高了声音生成性能,使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。
Jun, 2023
本研究提出了一种基于深度学习的视听生成模型,通过使用时间上的视觉信息来引导生成模型输出音频,以适应视听模态之间的同步性,该模型能够生成逼真的视听同步音轨,并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。
Jul, 2021