通过并行的文本世界训练的具有多模态的体验智能体

Nov, 2023

通过并行的文本世界训练的具有多模态的体验智能体

Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld

Yijun Yang, Tianyi Zhou, Kanxue Li, Dapeng Tao, Lusong Li...

TL;DR我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Abstract

While large language models (LLMs) excel in a simulated world of texts, they struggle to interact with the more realistic world without perceptions of other modalities such as visual or audio signals. Although vision-la

large language models vision-language models embodied visual world embodied multi-modal agent cross-modality imitation learning

发现论文，激发创造

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

基于 LLM 的具有视觉信息和面向预测的具身化世界模型

在这项研究中，通过探索利用视觉数据和 LLM 作为世界模型的可能性，以改善嵌入式人工智能的性能，实验结果表明 LLM 可以从视觉数据中提取必要信息，并利用这些信息提高其作为世界模型的性能，同时还指出设计的提示可以发挥 LLM 作为世界模型的功能。

Jun, 2024

PaLM-E：一个实体多模语言模型

研究提出了一种具有体感的语言模型，其可以将现实世界的传感器和语言模型直接结合起来，从而实现语言和感知之间的链接，并且在多个机器人任务、图像问题解答和字幕生成等方面取得了良好的表现。

Mar, 2023

VELMA：街景视觉语言导航中 LLM 代理人的语言表达体现

该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型（VELMA），它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互，相比先前的研究，在两个数据集中，VELMA 完成任务的成功率相比前者提高了 25％-30％

Jul, 2023

超越文字：多模态训练提升语言模型在真实性和伦理方面的能力

多模态大型语言模型（MLLMs）训练基于大型语言模型（LLM），具备理解多模态输入和生成文本响应的增强能力。本研究表明，视觉指导调整在纯自然语言处理（NLP）环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。

Sep, 2023

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

与 LLM 对齐：一种用于编码视觉皮层 fMRI 活动的新型多模态训练范式

提出了一种新的多模态训练范式，用于编码视觉皮层中的 fMRI 活动。使用预训练的 LLM 和对比损失函数完成图像和文本信息的对齐，提高了视觉编码模型的性能。

Jan, 2024