MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场

Apr, 2022

MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

Thomas Hayes, Songyang Zhang, Xi Yin, Guan Pang, Sasha Sheng...

TL;DR本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN，并展示了其在多模态理解和生成任务中的潜在应用。

Abstract

multimodal video-audio-text understanding and generation can benefit from datasets that are narrow but rich. The narrowness allows bite-sized challenges that the research community can make progress on. The richn

multimodal video-audio-text dataset mugen interactions

发现论文，激发创造

Game-MUG：多模态定向游戏情境理解与评论生成数据集

介绍 GAME-MUG，一个包含多模态游戏情境理解和观众参与评论生成数据集的新数据集，以及使用鲁棒性联合多模态双学习模型作为基线的新观众对话增强评论数据集。通过覆盖游戏情境和观众对话的学习，引入时间序列事件日志，检查模型对游戏情境 / 事件的理解能力和评论生成能力，展示多模态方面覆盖和联合集成学习方法的有效性。

Apr, 2024

MUG: 通用会议理解和生成基准

本研究旨在促进口语处理技术的发展，建立了一个大规模的 MUG 基准以对广泛的 SLP 任务的性能进行基准测试，包括主题细分、主题和会议层面的摘要和主题标题生成、关键短语提取和行动项检测。

Mar, 2023

ViGGO：一个用于开放域对话中的数据到文本生成的视频游戏语料库

本文提出了一个新的、干净且适合用于开放领域对话系统的 7K 样本语料库，探索了视频游戏领域，从而更好地利用深度学习在自然语言生成方面的作用。

Oct, 2019

MUMU：从文本到图像数据引导多模态图像生成

我们训练了一个模型，从混合了文本和图片的多模态提示中生成图片，例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪，引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成，并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上，MUMU 学会将来自不同图片的输入组合成一致的输出。例如，一个真实人物和一个卡通的输入会以卡通风格输出相同的人物，一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此，我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。

Jun, 2024

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

MUG: 用户界面上的交互式多模态基础

针对多模态界面对话交互中的语言歧义问题，本文提出了一种新的交互式任务 MUG，并构建了一个包含 77820 组人类用户和智能 Agent 交互的实验数据集，通过离线和在线策略进行评估，实验结果表明允许迭代式交互可以显著提高任务完成率。

Sep, 2022

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

使用视频、音频和文本进行真正的多模态 YouTube-8M 视频分类

该研究通过引入文本数据将视频分类问题转化为多模态任务，并针对该任务提出了一种分类框架，结合视觉、音频和文本特征进行研究探究。实验结果表明，利用文本特征可提高分类准确率。

Jun, 2017

WikiMuTe：音频音乐的语义描述的网络数据集

使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe，数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述，例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型，并进行跨模态检索。该模型在两个任务上进行评估：基于标签的音乐检索和音乐自动标注。结果表明，尽管我们的方法在多个任务上具有最先进的性能，但仍然观察到性能差异取决于用于训练的数据。

Dec, 2023

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022