基于自然语言指令的场景图修改

EMNLPOct, 2020

Scene Graph Modification Based on Natural Language Commands

Xuanli He, Quan Hung Tran, Gholamreza Haffari, Walter Chang, Trung Bui...

TL;DR本研究探讨了场景图修改的新问题，利用基于图形的稀疏变压器和跨注意信息融合等新型模型优于以前从机器翻译和图形生成文献中适应的系统，从而使得多轮用户界面的进展需要掌握和更新这些结构化表示。

Abstract

structured representations like graphs and parse trees play a crucial role in many natural language processing systems. In recent years, the advancements in →

natural language processing multi-turn user interfaces structured representations graph modification sparse transformer

发现论文，激发创造

场景图修改作为增量结构扩展

本文提出了一种基于增量结构扩展的场景图修改模型，使用自然语言查询更新属性和关系，并构建了一个包含更加复杂查询和大型场景图的数据集，并在四个基准测试上证明了模型的有效性，显著超过了之前的最先进模型。

Sep, 2022

场景图解析作为依存句法分析

本文介绍了一种通过神经依赖解析器直接从文本描述中解析出场景图来实现端到端训练的方法，并在评估数据集上比以往方法高出 5％的 F - 分数相似度来生成了我们学习的神经依赖解析器产生的场景图。

Mar, 2018

使用场景图进行语义图像处理

本文主要探讨了基于场景图像进行图像编辑的问题，介绍了一种无需直接监督训练的空间 - 语义场景图网络，并通过实验验证了其能够实现在保留原始语义和风格的情况下生成新的图像构成和实现图像编辑。

Apr, 2020

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

使用图形 transformer 从知识图谱生成文本

本文介绍了一种新型图形转换编码器，可处理知识图谱等非层次性图形的内容，应用于科学文本领域的图 - 文本生成，评价结果表明，该技术可以产生比竞争的编码解码方法更具信息量且结构更好的文本。

Apr, 2019

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

语言辅助下的场景检索：我在哪里？

使用自然语言接口和语境 AI 的研究，探索以自然语言查询来识别 3D 场景图的场景检索方法，并介绍了 Text2SceneGraphMatcher 的学习框架和数据集。

Apr, 2024

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

利用场景图进行视觉问答的实证研究

本文提出了一种使用场景图和图网络进行视觉问答的方法，具有比当前最先进的视觉问答算法更清晰的架构，同时可以解释推理过程，展示了可解释的视觉问答的潜力。

Jul, 2019

图形到三维：使用场景图端到端生成和操作三维场景

这篇研究论文提出了直接从场景图形中生成形状的第一种方法，并利用图卷积网络（Graph Convolutional Networks）对物体类别、边缘类别、3D 形状和场景布局进行 VAE 训练，从而支持场景生成和修改。

Aug, 2021