Nov, 2024

一切都是视频:通过下一个帧预测统一模态

TL;DR本研究解决了多模态学习中传统方法局限于特定模态编码器的问题,通过将多模态任务统一 reformulated为下一个帧预测问题,提出了一种新颖的框架。该方法允许单一模型在不依赖特定模态组件的情况下有效整合不同模态,实现知识的无缝转移,对多种任务表现出良好的通用性,推动了多模态基础模型的设计简化。