Apr, 2022

MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场

TL;DR本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN,并展示了其在多模态理解和生成任务中的潜在应用。