Jan, 2025

基于视频的自回归预训练实证研究

TL;DR本研究解决了视频自回归预训练模型的有效性问题,提出了一种名为Toto的模型系列,将视频视为视觉标记序列进行训练。研究结果表明,尽管模型具有较少的归纳偏见,预训练的自回归模型在多个下游任务中表现出色,显示出与语言模型相似的扩展曲线。