基于自然语言指令的场景图修改
本文提出了一种基于增量结构扩展的场景图修改模型,使用自然语言查询更新属性和关系,并构建了一个包含更加复杂查询和大型场景图的数据集, 并在四个基准测试上证明了模型的有效性,显著超过了之前的最先进模型。
Sep, 2022
本文介绍了一种通过神经依赖解析器直接从文本描述中解析出场景图来实现端到端训练的方法,并在评估数据集上比以往方法高出 5%的 F - 分数相似度来生成了我们学习的神经依赖解析器产生的场景图。
Mar, 2018
本文主要探讨了基于场景图像进行图像编辑的问题,介绍了一种无需直接监督训练的空间 - 语义场景图网络,并通过实验验证了其能够实现在保留原始语义和风格的情况下生成新的图像构成和实现图像编辑。
Apr, 2020
本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定,使用游戏状态的图形表示来训练模型,可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型,发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性,即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。
Jan, 2023
本文介绍了一种新型图形转换编码器,可处理知识图谱等非层次性图形的内容,应用于科学文本领域的图 - 文本生成,评价结果表明,该技术可以产生比竞争的编码解码方法更具信息量且结构更好的文本。
Apr, 2019
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023
使用自然语言接口和语境 AI 的研究,探索以自然语言查询来识别 3D 场景图的场景检索方法,并介绍了 Text2SceneGraphMatcher 的学习框架和数据集。
Apr, 2024
通过构建图像场景的文本表示形式,提出了一种图形分解和增强框架以进行对比学习,同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术,通过大量实验证明了该方法的有效性。
May, 2023
这篇研究论文提出了直接从场景图形中生成形状的第一种方法,并利用图卷积网络(Graph Convolutional Networks)对物体类别、边缘类别、3D 形状和场景布局进行 VAE 训练,从而支持场景生成和修改。
Aug, 2021