Apr, 2018
想象一下!从脚本到作品再到影片
Imagine This! Scripts to Compositions to Videos
Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi
TL;DR该研究介绍了一种名为 CRAFT 的模型,可以通过视频字幕数据学习空间,视觉和语义世界知识,预测提及实体的时间布局,从视频数据库中检索时空实体帧段并融合它们来生成视频。CRAFT 的关键贡献包括组件的连续训练,合并布局和外观的共同建模,以及鼓励学习检索构成表示的损失。该模型在语义一致性、构成一致性和视觉质量上均表现出色。