Nov, 2023

想象无形的世界:一个对视觉世界模型中系统化泛化的基准

TL;DR系统化视觉想象技巧的第一个基准测试(SVIB)引入了一种最小化世界建模问题的新框架,通过评估模型在潜在世界动态下生成一步图像到图像转换的能力,为我们带来了系统感知和想象的联合优化、多个难度等级和控制训练中使用的因子组合的可能性。我们对 SVIB 上的各种基线模型进行了全面评估,提供了系统化视觉想象技巧的最新发展现状的见解,希望该基准测试有助于推进视觉系统化组合性的发展。