Jan, 2025
基于视频的自回归预训练实证研究
An Empirical Study of Autoregressive Pre-training from Videos
Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer...
TL;DR本研究解决了视频自回归预训练模型的有效性问题,提出了一种名为Toto的模型系列,将视频视为视觉标记序列进行训练。研究结果表明,尽管模型具有较少的归纳偏见,预训练的自回归模型在多个下游任务中表现出色,显示出与语言模型相似的扩展曲线。