- 神经约束满足:层次抽象在物体重新排列中的组合推广
通过构建一个因式分解转换图,将通过像素推断出的实体代表聚类,进而实现对嵌入式代理的物体重新排列的控制,解决到目前为止难以解决的大量实体配置问题。
- 语言引导的具身化智能体多模式语音识别
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
- 利用语言模型进行具身推理的协作
本文探究将强化学习代理人和大规模语言模型相结合,实现在复杂环境中的推理和泛化的能力,通过预训练语言模型作为规划器,简单的合成体智能作为行动器,和与规划器通信的汇报器这三部分,展示这个系统在零 - shot 泛化的任务中的表现,并且讨论了其失 - 将互联网规模的视觉 - 语言模型化为具体智能体
本文提出了一种利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放(HER)技术,我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语 - Phone2Proc:将稳健机器人带入我们混沌的世界
介绍一种使用电话扫描和有条件程序生成的方法,可以在跨越不同的真实环境时,比仅在仿真环境中训练物体导航的体现代理增加约 100% 的成功率。
- LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划
本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning,同时提出 - 利用人类反馈的强化学习来提升多模态交互代理
使用人类反馈的强化学习方法,通过记录人类与模拟世界中的代理进行交互,构建能够自然交互和学习的代理行为,有效提高了代理在复杂领域中的行为表现。
- 通过纠错重新提示的方式,利用大型语言模型进行规划
本文提出了一种基于提示的策略,使用前置错误信息从 LLMs 中提取可执行计划,以设计智能化的实体代理,并在 VirtualHome 仿真环境中对该方法进行了评估。
- 从像素和自然语言指令中学习解决体素建筑任务
采用预训练语言模型生成行动计划是一种很有前途的研究策略,本文提出了一种新的方法,将语言模型与强化学习相结合,用于在类似 Minecraft 的环境中按照自然语言指令构建对象,在 IGLU 2022 竞赛中形成了强化学习基线。
- Avalon: 使用程序生成世界的强化学习泛化基准
通过引入针对强化学习通用化的 Avalon 挑战集,旨在帮助深度强化学习系统更好地适应于新任务和不同的环境,该集合基于高度多样化的 3D 环境,要求机器人体现出导航、狩猎和采集等能力,在每个地图中生存下来,该挑战集不仅限于改变环境仍使用相同 - ICLRSQA3D: 3D 场景中的位置问答
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k - 任务驱动的具身化智能代理的对话行为
研究中提出通过模型建立对话和为任务完成注释一组对话行为,并利用这些注释数据为对话行为建模训练模型,从而改善智能体对话行为和低级动作执行的任务完成。
- CVPR一个简单的视觉重排方法:3D 建图和语义搜索
提出了一种基于语义分割模型和强化学习模型的方法,通过视觉输入实现了对物体在房间中重新摆布的目标;在 AI2-THOR 重新摆放挑战中,使用的样本量仅为当前端到端强化学习模型方法的 2.7%,结果可从 0.53% 的正确率提升至 16.56% - VLMbench:一个视觉语言操纵组合基准
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度(D - 单智能体言语允许零 - shot 任务获取
通过研究人类内部语言训练过程,提出了一种基于半监督学习的具有视觉基础图像说明描述能力的算法,可用于提高智能体对新任务的学习效率和零样本学习能力。
- IGLU Gridworld:用于具有体态对话代理的简单快速环境
本文提出了 IGLU Gridworld 环境,以便于建立和评估具有语言约束的智能体的强化学习过程,该环境具有视觉实体特征、交互式学习、语言约束的强化学习以及组合难度大的任务空间。
- 2022 年 IGLU:NeurIPS 2022 的协作环境中的交互式语境理解
该研究提出了 IGLU 来解决如何让交互式实体智能在协作环境中学习自然语言指令并解决任务的问题,其关键词包括互动式语言理解、实体智能、自然语言理解和生成、强化学习和人类环评。
- MyoSuite -- 一种用于肌肉骨骼运动控制的接触模拟套件
MyoSuite 是一套体质上准确的生物力学模型,能够支持复杂的接触丰富的现实世界任务,包括肌腱移植、外骨骼辅助和肌肉收缩动力学等生理变化,从而展现出现实中的非稳态条件。
- 一种非情节式强化学习的状态分布匹配方法
提出一种名为 MEDAL 的新方法,它将反向策略训练成与提供的演示中的状态分布匹配,以使代理保持接近与任务相关的状态,从而为前向策略提供易于和困难的起始状态,而且在连续控制任务上匹配或优于先前的方法,同时做出比以前更少的假设。
- ECCVFedVLN: 隐私保护的联邦视觉语言导航
本研究提出了一种保护数据隐私的联邦视觉与语言导航(FedVLN)框架,通过去中心化训练策略和联邦探索方法来实现局部模型聚合,对于实现环境隐私和数据隐私的保护都起到了积极作用。在 R2R 和 RxR 数据集上的实验表明,联邦预探索方法可以显著