Apr, 2018

想象一下!从脚本到作品再到影片

TL;DR该研究介绍了一种名为 CRAFT 的模型,可以通过视频字幕数据学习空间,视觉和语义世界知识,预测提及实体的时间布局,从视频数据库中检索时空实体帧段并融合它们来生成视频。CRAFT 的关键贡献包括组件的连续训练,合并布局和外观的共同建模,以及鼓励学习检索构成表示的损失。该模型在语义一致性、构成一致性和视觉质量上均表现出色。