- iWISDM: 在大规模的多模态模型中评估指令遵循
通过 iWISDM 环境,我们编制了三个不同复杂度的指令跟踪视觉任务基准,并评估了几种新开发的多模态模型,结果显示多模态模型的指令遵循能力与人类存在较大差距。
- 使机器人能够遵循抽象指令并完成复杂动态任务
在不确定的环境中完成复杂任务的机器人系统的一个新框架,结合大型语言模型(LLMs)、知识库和综合力和视觉反馈(IFVF),通过分析用户的指令和环境,生成代码访问函数数据库并将抽象指令转化为可操作的步骤,并应用 IFVF 来应对噪音和干扰,以 - HiP 注意力:带有分层注意力修剪的稀疏次二次注意力
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
- Husky 多步推理的统一开源语言代理
Husky 是一个开放源代码的语言代理(language agent),通过在统一的行动空间上进行推理来解决涉及数值、表格和基于知识的复杂任务,它的实验结果显示在 14 个评估数据集上优于先前的语言代理,并且在混合工具推理方面甚至能与 GP - MENTOR:利用人类反馈和动态距离约束指导分层强化学习
通过引入人类反馈和动态距离约束,我们提出了一个通用的分层强化学习框架(MENTOR),作为 “导师” 参与高层策略学习以寻找更好的子目标,并设计了对应于探索 - 利用分离的双重策略以稳定训练。通过动态调整可选子目标的空间,MENTOR 可以 - ICML非静态环境下的多模态技能单次模仿
通过探索复杂任务的组合性,我们提出了一种新颖的基于技能的模仿学习框架,实现了一次性模仿和零次适应,能够从单个演示中学习复杂任务,并针对随时间变化的环境隐藏动力学优化行动序列,通过视觉 - 语言模型学习语义技能集合,并使用动力学推断来实现零次 - AppAgent: 多模态代理与智能手机用户
该研究介绍了一种基于大型语言模型的多模态代理框架,旨在操作智能手机应用程序,通过简化的操作空间模拟人类的点击和滑动等交互,避免了系统后端访问的需求,并扩大了其适用性。代理的功能核心是其创新的学习方法,通过自主探索或观察人类示范学习并构建知识 - 利用 AI 副驾驶员解决复杂搜索任务
搜索、复杂任务、生成人工智能、辅助代理和信息访问是这篇研究论文的关键词,通过作者在 2023 年 ACM SIGIR 大会上的主题演讲,探讨了这些问题,并为 AI 辅助代理引领下的信息访问开辟了新的前景。
- 优先软 Q 分解用于词典式强化学习
通过在连续空间的基础上处理优先级子任务,我们提出了一种用于学习和调整子任务解决方案的新算法 PSQD,允许重复使用先前学到的子任务解决方案,并通过融合和调整来满足任务优先级约束。
- 定制 LLMs:创建和检索专业工具集
通过使用特定任务的工具来增强大型语言模型的能力,CRAFT 框架通过创建和检索工具集,为 LLMs 提供了灵活性,并在视觉语言、表格处理和数学推理任务中实现了显著的性能改进。
- 自主驱动的概念建立:具备自动语言对齐技能学习的大型语言模型代理
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主 - 学习用于符号规划的通用类型动作
提出了一种通过给定的实体层次结构和观察到的相似行为来泛化符号动作的新概念,证明在虚拟的网格化厨房环境中可以从少量观察中学习到类型泛化的动作,并且在规划过程中引入了一种即时泛化机制,能够解决包括更长序列、新实体和未预期环境行为的未见任务组合。
- 重写剧本:为语音交互适应文本指令
语音助手面临指导复杂任务的困境,阅读书面指示的方法存在局限性。本研究观察了 12 位参与者使用先进的语音助手在家烹饪,发现目前的方法导致了九个挑战,包括隐藏整体情况、提供过多信息以及无法传达信息。通过语音转化书面指示为口头交流形式,提出了八 - 认知人形机器人的渐进过程与感觉运动学习
本文基于 CONAIM 模型,以增量方式学习程序,并通过增加学习过程的奖励函数提高认知代理的认知复杂性,从而解决了复杂任务。
- 在生态有效环境中解码神经活动以评估个体潜在状态
本文提出使用脑机接口的域泛化方法,以解决在更生态有效的情景下观察到的神经活动模式是否可以用于准确推断潜在状态、相关认知过程或个体近端行为等问题,并将其应用于驾驶相关任务中,从而表现出实验设计的生态效度,并为了解复杂任务期间观察到的神经活动和 - 低代码 LLM: 基于 LLMs 的可视化编程
本文介绍了一种新的人 - LLM 交互框架:Low-code LLM,它包括六种类型的简单低代码视觉编程交互,通过图形用户界面的视觉交互,用户可以在不编写琐碎的提示的情况下将其想法纳入工作流程,并且具有可控的生成结果、用户友好的人 - LL - 集成强化学习:一项调查
本文介绍了近期一种重要的处理复杂任务的方法 —— 集成强化学习,它结合了强化学习和集成学习来充分探索问题空间,具有强的推广特性。本文综述了集成强化学习的研究现状和进展,分析了其成功应用的策略,并提出了一些未来的研究方向和应用。
- 从单个演示中利用连续性进行强化学习
该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略,并提出 DCIL-II 算法以解决连续目标之间的兼容性问题,并在仿真环境中展示了前所未有的样本效率。
- PromptChainer:通过可视化编程连接大型语言模型提示
探索了基于 LLMs 的多次运行串联(即 chaining)的可视化编程过程,引入一个交互式界面 PromptChainer 来支持用户构建各种机器学习应用的原型。
- ICML通过想象的子目标进行目标导向强化学习
本研究提出了一种将想象中的子目标融入策略学习中的方法,以促进解决需要更复杂的任务,并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。