Jan, 2024
WorldDreamer:面向通用视频生成的世界模型预测屏蔽标记
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens
Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen...
TL;DRWorldDreamer 是一个创新的全球模型,通过将视觉输入映射为离散标记并预测掩码标记,将世界建模作为无监督的视觉序列建模挑战,实现对一般世界物理和运动的全面理解,并在视频生成方面具有卓越的性能。