- 朝自由度开放的任务解决
通过引入 "Diffusion for Open-ended Goals"(DOG)框架来提升具有人工智能的体验智能体(如机器人)的能力,以处理未预见的多方面、动态的、缺乏明确定义的的开放式任务目标,并展示了 DOG 在迷宫导航和机器人控制 - 创意智能代理:为创意任务赋予想象力
我们研究建立具有开放式创造性任务的具身代理。通过增强控制器与想象器,根据语言指令生成详细的任务想象,我们提出了创造性代理解决方案的一类方法。我们在 Minecraft 游戏中使用 GPT-4V 评估了这些创造性任务,展示创造性代理是首批在 - 机器人中的迁移学习:即将到来的突破?承诺与挑战综述
通过一个综述性论文,我们统一了机器人学领域中的迁移学习概念,并提供了首个考虑机器人、任务和环境关键概念的分类法,同时也强调了在实现迁移学习的全部潜力方面最重要的障碍,包括迁移的不同抽象层级,迁移差距和质量的量化需求,以及负向迁移所带来的危险 - 主动开放字汇识别:让智能运动缓解 CLIP 限制
本研究针对活跃的开放词汇识别提出了一种新的代理方法,利用帧间和概念间相似性来引导代理运动和融合特征,从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率,有效应对了视点和遮挡对模型性能的影响。
- 实体机器人的视觉语义导航
本研究提出了一种新的方法将 Visual Semantic Navigation(VSN)模型集成到真实机器人中,并针对真实环境中的性能差异进行实验验证,以期推动在真实世界情景中提升具体实体机器人的性能和效率。
- 目视与思考:虚拟环境中的具身智能体
STEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理,其三个关键组成部分是视觉感知、语言指导和代码动作,通过视觉信息解释、迭代推理和可执行技能行为生成,STEVE 在 Minecraft 环境中实现 - EMNLP使具有身体的代理程序理解人类指令
提出了一种名为 tagE 的新系统,采用神经网络模型来从复杂的自然语言任务说明中提取一系列任务和相应的参数,并将这些任务映射到机器人的技能集合中,参数与环境中的对象关联。实验证明这种方法胜过坚实的基线模型。
- Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界
本文提出了 Steve-Eye,一个端到端训练的大型多模态模型,用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战,并基于广泛实验验证了该模型在战略行为和规划方面的能力。
- LoHoRavens: 一项长视程语言引导的机器人桌面操纵基准
本研究基于体验工具人和大型语言模型的融合,在长时序任务中通过引入颜色、尺寸、空间、算术和参考等多个方面的推理来进行桌面操作,提出了一个模拟基准测试过程,同时探索通过标题生成和可学习接口来弥合模态差距,以改进当前流行模型在长时序桌面操作任务中 - MM语音手势生成对话生成对话生成对话生成:机器人和具身化代理的手势生成
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
- GENEA Challenge 2023 的 DiffuseStyleGesture + 参赛方案
通过 DiffuseStyleGesture + 模型,本论文介绍了一种用于生成对话手势的非语言行为的生成和评估的解决方案。该模型利用扩散模型自动生成手势,通过音频、文本、说话者 ID 和种子手势等多种模态对隐藏空间进行映射和处理,在 GE - LLM 动态规划
大型语言模型与符号规划器结合的神经符号框架,为解决涉及体验代理的复杂计划任务提供更快速和高效的解决方案。
- 使用大语言模型模块化地构建合作体验智能体
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
- 基于大语言模型的具身化任务规划
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
- 可扩展的自我中心规划实现任务完成
本文提出了一种称为 “Egocentric Planning” 的创新方法,将符号规划和面向对象的 POMDP 相结合,以解决在复杂环境中的任务。在 ALFRED 中进行的实验表明,该方法可以在完成家庭任务方面取得显著的成功率。该方法需要可 - Sonicverse: 面向具有视听能力的智能家居代理的多感官仿真平台
Sonicverse is a multisensory simulation platform for training household agents with audio-visual perception capabilities - 通过交互式基于语境的语言指导重新定义具有代表性的代理人能力,改变以人为中心的 AI 协作
本文介绍了一种交互式的 “体现代理” 系统,它具有适应性,能够有效地处理自然语言指令,并提供反馈。同时,还介绍了一种用于收集有关该系统的大量文本指令的众包工具,以及该系统具有学习能力的数据集和基线模型。
- 双重文本图像指示下的多模式程序规划
研究了利用图文混合信息来辅助人类完成任务的方法,提出了基于多模态程序规划的任务,使用基于大型语言模型的有提示和图片描述提示的方法可以生成具有信息性和准确性的图文混合任务规划。
- ICLR倒行逆施前行:基于行动影响的嵌入在行动语义之上
通过使用潜在嵌入来即时建模行为的影响,在行为自适应策略(AAP)中设计了一种新的基于 Transformer 的策略头,该策略被用于两个具有挑战性的视觉导航任务中,即使在推理时缺少行为和先前未见过的扰动行为空间时,也表现出很高的性能和鲁棒性 - ICLREDGI: 带体验代理的等变扩散规划
EDGI 是一种可使得体现实智能与空间对称性等几何结构特征的 Model-based 强化学习与规划算法,通过基于扩散模型的条件生成建模和指导策略来提高任务特定的采样效率和泛化能力。