BriefGPT.xyz
Ask
alpha
关键词
mugen
搜索结果 - 1
MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场
本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN,并展示了其在多模态理解和生成任务中的潜在应用。
PDF
2 years ago
Prev
Next