PaLM-E:一个实体多模语言模型
本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能,以帮助解决模型在简单的推理和规划中的局限性,实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能,尤其是 1.3B 和 6B 的小 LM。
May, 2023
我们通过在文本世界的任务中,将大型语言模型(LLMs)的反思结果(通过分析错误改进的行为)融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型(VLM)代理,从而使得这个多模态的具身代理(EMMA)能够快速适应视觉世界的动态,并在 ALFWorld 基准测试中表现出优越的性能。
Nov, 2023
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
Jul, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench,定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集 EgoPlan-IT,这些实验结果表明,通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较,我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色,平均决策准确率比 GPT4-HOLMES 高出 3%,但这种性能仅适用于最新的 GPT4-Vision 模型,超过开源最先进的多模态大型语言模型的 26%。我们的结果表明,像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力,为多模态大型语言模型研究开辟了新的途径。
Oct, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
通过介绍一种新的多用途无仿真测试平台 LangSuitE 以及一种新的思维链式 (schema) EmMem 来评估大型语言模型在动态交互环境中作为少样本或零样本具有实体的智能体的效果和挑战,该研究对于建立语言模型背景下的具有实体特征的普适性智能体代表了重要的进展。
Jun, 2024
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023