从场景图和自注意力生成 3D 场景
提出一种基于变分生成模型和场景图条件的端到端场景布局合成方法,并使用可微分渲染模块优化生成的布局。实验表明,该模型可以更精确和多样地进行条件场景合成,并允许从各种输入形式生成样本化场景。
Jul, 2020
这篇研究论文提出了直接从场景图形中生成形状的第一种方法,并利用图卷积网络(Graph Convolutional Networks)对物体类别、边缘类别、3D 形状和场景布局进行 VAE 训练,从而支持场景生成和修改。
Aug, 2021
本文提出了一种基于场景图的全生成模型 CommonScenes,旨在通过抽象场景上下文,生成对应的可控三维场景。该模型通过两个分支的预测和生成实现对全局场景 - 对象及局部对象 - 对象关系的捕捉,同时保留形态多样性,从而在生成一致性、品质和多样性方面具有明显优势。
May, 2023
本研究通过使用基于层次结构的编码器(支持,周围和共存关系),实现了用于室内 3D 场景生成的递归神经网络,结合一种变分自编码器(VAE),用于场景对象组合和场景生成。研究表明,所提方法能够高效地生成大量和多样化的 3D 室内场景,并在与现有方法的比较中展现出优越性能。
Jul, 2018
通过使用预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,我们引入了 SelfGraphVQA 框架,改进了图表示在视觉问答任务中的利用,从而避免昂贵和潜在有偏的注释数据,并通过图像增强创建提取图的多个视图,通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。
Oct, 2023
本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
LayoutVAE 是一种基于变分自编码器的场景布局生成框架,它可以根据文本或标签生成场景布局,检测布局异常问题,并在 MNIST-Layouts 和 COCO 2017 Panoptic 数据集上取得了良好的效果。
Jul, 2019
从场景图生成逼真合理的三维场景,利用大型语言模型显式汇总全局图特征和局部关系特征,通过统一的图卷积网络从更新的场景图中提取图特征,并引入基于 IoU 的正则化损失来约束预测的三维布局。在 SG-FRONT 数据集上进行基准测试,我们的方法在场景级准确性方面取得了更好的三维场景合成效果。发表后将发布源代码。
Mar, 2024
通过使用 transformers 的自我关注机制来生成室内场景,使得场景的生成速度更快、逼真程度更高,并且方法还具有更高的灵活性,可以根据不同条件进行调整。
Dec, 2020
该论文提出了一种新的神经渲染方法,能够将动态环境分解成场景图,通过隐式编码学习场景的变换和辐射度,并能够渲染未见过的物体、位置的各种动态场景,达到了高度逼真的效果。
Nov, 2020