- 推进工具增强型大型语言模型:整合推断树中错误的见解
基于决策树的推理轨迹优化框架提高了工具辅助大型语言模型的推理性能和泛化能力,解决了基于路径的训练方法的局限性,同时透过错误推理路径的洞察力,提高了复杂工具使用推理任务的推理效率。
- 朝实用性工具使用的方向:为不断学习的 LLMs 而努力
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的 - 从失败中学习:在将大型语言模型调优为代理时,整合负例
大语言模型在与环境进行交互时存在工具使用方面的优化限制,然而通过适当的数据清理和微调策略,大语言模型可以从失败中学习并显著提高性能。
- 层次主动推断中的动态规划
通过动态规划,我们指的是人脑推断和施加与认知决策相关的运动轨迹的能力。最近的范式 —— 主动推断,为生物有机体的适应提供了基本见解,不断努力减小预测误差以限制在适合生活的状态中。在过去的几年中,许多研究表明,人类和动物行为可以用主动推断的过 - 小型 LLM 是弱工具学习者:多 LLM 代理
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
- 学习设计和使用机器人操纵工具
通过深度学习和强化学习相结合的方法,本文提出了一种学习策略来解决机器人的操纵任务,并展示了比先前方法更高的样本效率、对未见过任务的适应性以及在实际约束条件下复杂性设计和控制策略之间的权衡。
- 大型语言模型与创造性机器人工具使用
本研究论文通过利用大型语言模型构建了一个名为 RoboTool 的系统,通过接受自然语言指令并输出可执行的机器人控制代码,实现了机器人在包含隐含物理约束和长期规划的任务中的创造性使用工具的能力。通过广泛的实验验证,RoboTool 在处理否 - 学习非刚性抓姿注册的通用工具使用
通过我们提出的一种新方法,仅使用单个演示,我们实现了工具使用行为的强化学习,通过给予初值设定和形状奖励信号的引导来解决多指机械手抓取配置的推广问题,并实现复杂的工具使用任务并在测试时推广到未见过的工具。
- 多智能体自学课程中的紧急工具使用
通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法,我们发现代理创建了多个不同的新兴策略,其中许多需要复杂的工具使用和协调,并提供了有关多智能竞争可能扩展至更复杂环境的证据。
- 通过物理理解进行即兴发挥:利用新颖物品及视觉先见的工具
通过机器学习技术,训练视觉和物理多物互动理解的模型,并开发了一个基于样本的优化器来实现复杂的工具使用任务,实验表明目前此方法可以通过原始像素输入解决多种复杂的工具使用任务,能够感知和使用新的对象作为工具,同时根据需要灵活选择是否使用工具。