Jun, 2024

4M-21:面向数十项任务和模态的任意到任意视觉模型

TL;DR通过对多个多媒体形式进行联合训练和扩展,我们成功地提升了多模态模型的能力,并展示了训练一个模型以解决更多任务 / 多模态性的可能性,而不损失性能,从而实现更精细化和可控的多模态生成能力。