自然语言视觉推理
本文介绍了一个新数据集,包含 107292 个英语句子与网络照片的组合,任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。
Nov, 2018
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
本文介绍了首个以生成自然语言解释为中心的研究,该研究关注复杂的视觉推理任务,包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer,该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释,实现了全面的图像理解,并且实验证明,自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。
Oct, 2020
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
本文综述了一种新的逻辑推理范式,它使用自然语言作为知识表示(并使用预训练语言模型作为推理器),包括逻辑推理的哲学定义和分类、新范式的优势、基准和方法、新范式的挑战、未来的可取任务和方法以及与相关 NLP 领域的关系。这种新范式具有很好的前景,因为它不仅可以缓解正式表示的许多挑战,而且还对端到端的神经方法具有优势。
Mar, 2023
该研究是一篇关于自然语言推理的调查论文,提出了 NLP 领域内自然语言推理的概念和实践上的更清晰的视角,并提供了哲学和 NLP 场景的基础上自然语言推理的清晰定义、分类,以及各种任务需要做出推理、回溯推理技术和 defeasible reasoning 未来发展的前景等方面的综述。
Mar, 2023
本文介绍了一种神经符号 (混合) 组合推理模型,以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明,该方法达到了非常高的准确性,同时可以进行少量的视觉微调,从而实现了真实场景的可转移性。
Oct, 2022
通过条件批量归一化对 CLEVR 视觉推理基准进行训练,我们的方法在人工视觉推理方面实现了最先进的成果,这表明带有适当条件的通用架构可以有效地学习进行视觉推理。
Jul, 2017
本文提出了一个包含自然语言描述复杂机器人任务的数据集,以期提高机器人与人类之间的互动能力,在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航,以及指涉表达模型来验证这项新任务的难度,但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有很大的改进空间。
Apr, 2019