MINT：用于 Foley 音频内容规划和生成的多模态图像和叙述文本配音数据集

Jun, 2024

MINT：用于 Foley 音频内容规划和生成的多模态图像和叙述文本配音数据集

MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation

Ruibo Fu, Shuchen Shi, Hongming Guo, Tao Wang, Chunyu Qiang...

TL;DR此研究论文介绍了 AI 生成内容中的 foley 音频在多媒体内容中提升沉浸式体验的重要性和挑战，探讨了当前文本到音频技术在视频配音应用中的局限，并提出了多模态音频配音数据集（MINT）和一种基于大型语言模型的含有复合模态提示的内容规划、生成和对齐框架，通过增强学习方法优化训练过程，提高配音质量和生成音频的真实感，为多模态配音领域提供了强大的解决方案。

Abstract

foley audio, critical for enhancing the immersive experience in multimedia content, faces significant challenges in the ai-generated content (AIGC) landscape. Despite advancements in AIGC technologies for text an

foley audio ai-generated content text-to-audio technology multi-modal dubbing foley audio content planning, generation, and alignment

发现论文，激发创造

MINT-1T：将开源多模态数据放大 10 倍：一万亿令牌的多模态数据集

介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T，其中包括十亿个文本标记和三十亿个图像，并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。

Jun, 2024

MINT: 使多模态和多图像 AI 模型互动的封装器

开发了一种名为 MINT（模型交互）的包装器方法，能够自动确定在每个步骤中最有价值的信息，为皮肤病预测模型提供多个图像和一组可选的元数据问题，证明了 MINT 在减少信息输入、保持预测性能以及模拟临床工作流程决策过程方面的效果。

Jan, 2024

MIntRec：一个新的多模态意图识别数据集

这篇论文介绍了一个新的数据集（MIntRec）来解决现有意图识别方法在实现多模态信息利用方面的限制。使用该数据集，通过提取每种模态的特征并采用三种强大的多模态融合方法，可以显著提高意图识别的效果。

Sep, 2022

PolyGlotFake：一种新颖的多语言和多模态 DeepFake 数据集

通过提出一个新颖的、多语种的、多模态的深度伪造数据集 PolyGlotFake，本研究在该数据集上进行了实验，展示了多模态深度伪造检测研究中的重要挑战和实用价值。

May, 2024

MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场

本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN，并展示了其在多模态理解和生成任务中的潜在应用。

Apr, 2022

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

Diff-Foley: 基于潜在扩散模型的同步视频 - 音频合成

使用 Diff-Foley 方法和潜在扩散模型进行音频与视频同步生成，其在现有的大规模数据集上取得了最先进的性能。

Jun, 2023

MAGID: 生成合成多模态数据集的自动化流程

我们引入了 MAGID，一个以多模式互动系统为基础的创新框架，通过高质量且多样化的图像增强了仅有文本的对话，通过扩充图像数据库取得显著的人类评估改进。

Mar, 2024

FoleyCrafter: 用真实且同步的声音赋予无声视频生机

通过使用 FoleyCrafter 框架，结合语义对齐和音视频同步，实现高质量音效与视频的同步生成，满足用户意图。

Jul, 2024

多语种事件视频与对齐自然文本

构建了 MultiVENT 数据集，该数据集包括多语言、以事件为中心的视频，用于分析在线新闻视频的状态，并利用其构建强大、事实准确的模型，并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。

Jul, 2023