想象一下！从脚本到作品再到影片

Apr, 2018

想象一下！从脚本到作品再到影片

Imagine This! Scripts to Compositions to Videos

Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi

TL;DR该研究介绍了一种名为 CRAFT 的模型，可以通过视频字幕数据学习空间，视觉和语义世界知识，预测提及实体的时间布局，从视频数据库中检索时空实体帧段并融合它们来生成视频。CRAFT 的关键贡献包括组件的连续训练，合并布局和外观的共同建模，以及鼓励学习检索构成表示的损失。该模型在语义一致性、构成一致性和视觉质量上均表现出色。

Abstract

Imagining a scene described in natural language with realistic layout and appearance of entities is the ultimate test of spatial, visual, and semantic world knowledge. Towards this goal, we present the Composition, Retrieval, and Fusion Network (craft), a model capable of learning this

composition, retrieval and fusion network craft video-caption data temporal-layout prediction video generation

发现论文，激发创造

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

显式表示语法提升预测意外情境下的句子布局

通过自然语言句子中的识别视觉实体和将其按照二维空间布局排列，需要对语言和空间进行构造性理解。本研究通过对比显示，如果句子提到了在训练期间看到的类似实体关系，则可以从隐式或显式编码句子句法的语言表示中预测布局。为了测试构造性理解，我们收集了一组语法正确的测试句子和布局，它们描述了在训练期间很可能没有见过的实体和关系的组合。结果显示，在这个测试集上的表现大幅下降，表明当前模型依赖于训练数据中的相关性，并且在理解输入句子的结构方面存在困难。我们提出了一种新颖的结构损失函数，更好地强制执行输入句子的句法结构，并在以文本为条件的 2D 空间布局预测任务中取得了显著的性能提升。该损失函数有潜力在其他生成任务中使用，其中基础的调节方式是树状结构。代码、训练模型和 USCOCO 评估集将通过 GitHub 提供。

Jan, 2024

结构化变分跨图对应学习的组合时序对齐

介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分，即 Charades-CG 和 ActivityNet-CG，用于测试模型的组合泛化能力，提出了一个变异的跨图推理框架来应对这一挑战。

Mar, 2022

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023

视觉字幕的语义组合网络

该研究提出了一种基于语义组合网络的图像和视频片段字幕生成方法 (SCN)，采用概率建模技术和长短时记忆网络 (LSTM)，并在多个基准数据集上评估和验证了其优越性能。

Nov, 2016

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

组合式视频预测

本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Aug, 2019

从文字描述中合成构成动画

本文针对自然语言描述的运动合成问题，提出了一种基于两级流模型的生成复合动作的技术，利用两个流分别表示上下半身的动作，能够有效地生成短句和复合句中描述的 3D 姿态序列，与已有研究相比，实验结果表明我们的模型在客观评价方面进步了 50% 以上，在主观评价方面也得到了很好的实验结果。

Mar, 2021