OBJ2TEXT: 从物体布局生成视觉描述语言

EMNLPJul, 2017

OBJ2TEXT: 从物体布局生成视觉描述语言

OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts

Xuwang Yin, Vicente Ordonez

TL;DROBJ2TEXT 是基于 LSTM 网络的序列到序列模型，可用于抽象场景的描述生成，加入状态 - 最先进的物体探测器后可将图像的描述评分从 0.863 提升到 0.950（CIDEr score），并能有效表示物体的空间关系。

Abstract

Generating captions for images is a task that has recently received considerable attention. In this work we focus on caption generation for abstract scenes, or object layouts where the only information provided is a set of objects and their locations. We propose →

caption generation obj2text lstm network object-layout captioning ms-coco captioning

发现论文，激发创造

基于版面的图像生成

Layout2Im 是一种基于布局的图像生成方法，将物体表示分解为指定和不确定部分，并使用卷积 LSTM 编码并解码整个布局，以生成准确且多样化的图像，提高了最佳 Inception 分数 24.66％至 28.57％。

Nov, 2018

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

Text2Scene: 从文本描述生成组合场景

本文提出了 Text2Scene 模型，该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同，Text2Scene 不使用生成对抗网络（GANs），而是通过依次生成对象和它们的属性来学习生成场景，从而实现生成各种形式的场景表示，包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作，而且其结果可以被解释。

Sep, 2018

LTOS: 布局可控的文本对象合成通过自适应交叉关注融合

通过将文本渲染和布局到图像生成任务融合为一个任务，本文提出了一种布局可控的文本 - 对象综合 (LTOS) 任务，旨在根据预定义的对象布局和文本内容合成具有对象和视觉文本的图像。

Apr, 2024

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

Text2Scene：基于文本的室内场景风格化与局部细节

通过引用图像和文本描述，我们提出了一种名为 Text2Scene 的方法，可以自动创建由多个物体组成的虚拟场景的逼真纹理，这种方法在房间的标记三维几何体上增加了详细纹理，使生成的颜色尊重经常由类似材料组成的分层结构或语义部分。

Aug, 2023

Text2LIVE: 文本驱动的分层图像和视频编辑

本文介绍了一种用于零样本、文本驱动外观操作的方法，利用内部数据集训练生成器，结合外部的 CLIP 模型进行损失计算，并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。

Apr, 2022

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018