Nov, 2023

Mirasol3B:面向时间对齐和上下文多模态自回归模型

TL;DR我们提出了一种多模态模型 Mirasol3B,通过自回归机制,将多媒体输入分别处理并建模,同时使用分段和合并机制来处理视频和音频序列的长依赖性,从而实现了在多模态基准测试上的最佳结果。