Mar, 2023

MaMMUT:联合学习多模态任务的简单架构

TL;DR我们提出了一种使用解码器模型进行多模式任务训练的新范例,其中MaMMUT作为一个简单的模型,能够通过新颖的文本解码器的两次传递方法容纳对比和生成学习,并能够直接扩展到开放词汇的对象检测和视频语言任务,且该模型在多个任务上均取得了最佳效果。