针对虚构视觉语言推理任务的动作 - 效果动力学学习

EMNLPDec, 2022

针对虚构视觉语言推理任务的动作 - 效果动力学学习

Learning Action-Effect Dynamics for Hypothetical Vision-Language Reasoning Task

Shailaja Keyur Sampat, Pratyay Banerjee, Yezhou Yang, Chitta Baral

TL;DR通过使用编码器 - 解码器架构、模态分析器和场景图问题解答模型，我们提出了一种新的学习策略，可以提高关于行动效果的推理能力，并在 CLEVR_HYP 数据集上对我们的系统进行了评估。

Abstract

'Actions' play a vital role in how humans interact with the world. Thus, autonomous agents that would assist us in everyday tasks also require the capability to perform 'reasoning about actions & change' (RAC). This has been an important research direction in Artificial Intelligence (A

reasoning about actions & change clevr_hyp encoder-decoder architecture modality parsers scene graph question answering model

发现论文，激发创造

从场景图对中学习动作 - 效应动力学

本文提出了一种新方法，利用场景图像来推理自然语言中描述的行为的影响，并在现有的 CLEVR_HYP (Sampat et.al，2021) 数据集上进行了实验，显示出与现有模型相比，该方法在性能，数据效率和泛化能力上都具有有效性。

Dec, 2022

关于视觉和语言模态下的行动推理：一项综述

本文综述了在视觉和语言领域中，关于 “行动与变化推理” 的先前研究任务、基准数据集、各种技术和模型以及它们的表现。最后，我们总结了我们的主要收获，讨论了当前这个研究领域面临的挑战，并概述了未来研究的潜在方向。

Jul, 2022

ActionReasoningBench: 研究带有或不带有约束的动作推理

对于动态环境、互动场景和常识推理等任务，大型语言模型在对行为和变化的推理方面面临着重要的挑战，因此引入了一个新的 ActionReasoningBench 基准来评估大型语言模型在行为和变化推理的八个不同领域上的性能。我们的结果表明，这些模型在基准中的所有类别都面临着重大挑战。

Jun, 2024

CLEVR_HYP：用于基于图像进行假设性动作的视觉问答的挑战数据集和基线模型

本研究基于 CLEVR 数据集，将视觉理解提高到更高层次，通过思考特定操作在给定情境下的假想后果来回答问题，并提出了基于最佳现有 VQA 方法的基线求解器。此外，研究还探讨了多种体系结构实施图像 - 文本模态联合推论的能力，为开发更好的视觉语言模型提供了思路。

Apr, 2021

TRAC: 一个关于动作和变化推理的文本基准

使用基于 Transformer 的语言模型，针对行动与变化的推理问题提出了 TRAC 基准测试，该测试提供了各种复杂性的问题，旨在更加精准地评估模型的结构泛化能力。实验结果表明，需要额外努力来解决 TRAC 带来的挑战。

Nov, 2022

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

通过强化学习将大型视觉语言模型细调为决策代理

使用强化学习对视觉语言模型进行微调，提出了一种算法框架来增强其决策能力，验证了连续思维推理的重要性，并展示了在各种任务中超越商业模型的性能。

May, 2024

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022