自然语言视觉推理

AAAIOct, 2017

Visual Reasoning with Natural Language

Stephanie Zhou, Alane Suhr, Yoav Artzi

TL;DR本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Abstract

natural language provides a widely accessible and expressive interface for robotic agents. To understand language in complex environments, agents must reason about the full range of →

natural language robotic agents language inputs visual reasoning synthetic images

发现论文，激发创造

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

从像素到语义框架到常识图谱的全栈视觉推理自然语言理由

本文介绍了首个以生成自然语言解释为中心的研究，该研究关注复杂的视觉推理任务，包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer，该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释，实现了全面的图像理解，并且实验证明，自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。

Oct, 2020

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

自然语言作为知识表示的逻辑推理：一项调查

本文综述了一种新的逻辑推理范式，它使用自然语言作为知识表示（并使用预训练语言模型作为推理器），包括逻辑推理的哲学定义和分类、新范式的优势、基准和方法、新范式的挑战、未来的可取任务和方法以及与相关 NLP 领域的关系。这种新范式具有很好的前景，因为它不仅可以缓解正式表示的许多挑战，而且还对端到端的神经方法具有优势。

Mar, 2023

自然语言推理概述

该研究是一篇关于自然语言推理的调查论文，提出了 NLP 领域内自然语言推理的概念和实践上的更清晰的视角，并提供了哲学和 NLP 场景的基础上自然语言推理的清晰定义、分类，以及各种任务需要做出推理、回溯推理技术和 defeasible reasoning 未来发展的前景等方面的综述。

Mar, 2023

交互式机器人操作的混合组合推理方法

本文介绍了一种神经符号 (混合) 组合推理模型，以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明，该方法达到了非常高的准确性，同时可以进行少量的视觉微调，从而实现了真实场景的可转移性。

Oct, 2022

无强先验条件下的视觉推理学习

通过条件批量归一化对 CLEVR 视觉推理基准进行训练，我们的方法在人工视觉推理方面实现了最先进的成果，这表明带有适当条件的通用架构可以有效地学习进行视觉推理。

Jul, 2017

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019