Jan, 2024

WorldDreamer:面向通用视频生成的世界模型预测屏蔽标记

TL;DRWorldDreamer 是一个创新的全球模型,通过将视觉输入映射为离散标记并预测掩码标记,将世界建模作为无监督的视觉序列建模挑战,实现对一般世界物理和运动的全面理解,并在视频生成方面具有卓越的性能。