Jun, 2024

MINT:用于 Foley 音频内容规划和生成的多模态图像和叙述文本配音数据集

TL;DR此研究论文介绍了 AI 生成内容中的 foley 音频在多媒体内容中提升沉浸式体验的重要性和挑战,探讨了当前文本到音频技术在视频配音应用中的局限,并提出了多模态音频配音数据集(MINT)和一种基于大型语言模型的含有复合模态提示的内容规划、生成和对齐框架,通过增强学习方法优化训练过程,提高配音质量和生成音频的真实感,为多模态配音领域提供了强大的解决方案。