Jun, 2023

FALL-E: 佛利音效合成模型与策略

TL;DR本文介绍了 FALL-E—— 一个 foley 合成系统及其训练 / 推理策略,FALL-E 采用级联方法,由低分辨率谱图生成、谱图超分辨率和声码器组成,利用数据集训练每个与声音相关的模型,并利用预训练的语言模型,通过数据集特定的文本对模型进行条件设定。在 DCASE 2023 挑战任务 7 的客观测试和听辨测试中,FALL-E 取得了第二名的好成绩,在多样性得分上排名第一,在音质上排名第二,在分类适应度上排名第三。