学习多模态环境中物理动作的影响

Jan, 2023

学习多模态环境中物理动作的影响

Learning the Effects of Physical Actions in a Multi-modal Environment

Gautier Dagan, Frank Keller, Alex Lascarides

TL;DR通过加入图像和文本等多种形式的感官信息以及使用对象的潜在表示对 LLM 进行扩展，以更好地预测动作结果，进而推广并学习物理常识推理。

Abstract

large language models (LLMs) handle physical commonsense information inadequately. As a result of being trained in a disembodied setting, LLMs often fail to predict an action's outcome in a given environment. How

large language models physical commonsense information multi-modal task latent representations physical commonsense reasoning

发现论文，激发创造

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

OmniActions: 使用 LLMs 预测对现实世界多模态感知输入的数码行为

未来交互界面需要基于用户背景智能地提供快速访问数字行动以减少对多模态信息的摩擦。我们通过一个日记研究搜集数据，生成了数字后续行动的整体设计空间，并使用大型语言模型对多模态感知输入进行处理和预测行动。通过定量评估不同的语言模型技术，我们找到了最有效的技术，并通过交互原型收集了初步用户反馈。

May, 2024

探索基于多模态推理的物理动力学失败案例

本文探讨了 LLMs 在情境环境中通过物理推理解决问题的能力。我们构建了一个简单的模拟环境，并展示了 LLMs 在无先验条件下对各种物体的原子世界知识的示例，但在对象操作和放置任务中未能将这些知识组合成正确的解决方案。我们还使用了 BLIP，一个经过更复杂的跨模态注意力训练的视觉语言模型，来识别该模型未能基于对象物理属性进行建模的案例。最后，我们提出了一种发现环境中相关性质的对象的方法，并提出了一种将这些知识转化回 LLM 的方法。

Feb, 2024

在行动中联系多模态大型语言模型

通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Jun, 2024

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

利用大型语言模型学习物理技能的奖励

使用大型语言模型通过环境反馈提取任务知识，为物理技能创建高效的奖励函数。方法包括利用语言模型提出奖励函数的特征和参数，然后通过迭代自对准过程更新这些参数，使语言模型与学习到的奖励函数的排名一致，通过在三个模拟物理技能学习任务中的测试验证了方法的有效性。

Oct, 2023

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

SimLM：语言模型能否推断物理系统的参数？

大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展，给医学、机器人学和科学探索等多个领域带来了影响。然而，这些大语言模型因为其训练所使用的大型语料库的特点，存在无法处理一些特定问题，如高级数学。本文针对大语言模型无法进行物理任务推理的问题进行了研究，并证明了通过从物理模拟的反馈中增强它们的上下文，可以改进它们推断物理系统参数的能力，而无需重新训练。

Dec, 2023

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024