- 语言引导的技能发现
使用大型语言模型的语义知识,Language Guided Skill Discovery (LGSD) 基于用户提示输出一组语义上独特的技能,使得四足机器人能够通过改变提示在平面上访问不同的用户预期区域,并且在机器人运动和操作环境中,与五 - 加入技能发现
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完 - 用语言导向的时间变分推断进行技能学习
我们提出了一种从专家示范中发现技能的算法,该算法首先利用大型语言模型对轨迹进行初步分割,然后采用层次变分推理框架结合语言模型生成的分割信息,通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡,我们引入了一种基于最小描述 - 多批评家技能学习
我们提出了 SLIM,一种多批评家学习方法,它通过在演员 - 评论家框架中优雅地结合多个奖励函数,显著提高了机器人操作的潜在变量技能发现,克服了可能干扰收敛到有用技能的奖励之间的干扰,并展示了在桌面操作中,我们方法在获得安全高效的运动基元方 - LOTUS:无监督技能发现的机器人操控持续模仿学习
LOTUS 是一种持续模仿学习算法,使物理机器人能够在其寿命期内持续而高效地学习解决新的操作任务。通过使用一个开放词汇表视觉模型进行持续的技能发现过程,LOTUS 能构建一个不断增长的技能库,从一系列以少量人类示范展示的新任务中提取技能,并 - APART: 采用升序奖励和丢弃法的多样化技能发现
在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为 APA - 基于 Kronecker 图的可扩展多代理技能发现
通过直接计算多智能体任务的 Laplacian 谱,我们提出一种基于 Kronecker 图的多智能体选项发现方法,通过估计 Fiedler 向量来改善联合状态空间的连通性,并通过深度学习扩展方法来处理无限规模状态空间。在 Mujoco 等 - 从次优演示中进行模仿学习的技能解耦
本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络,通过技能探索和调整,以及相互信息正则化促进技能空间中的解缠缩。
- AdaPlanner:使用语言模型的自适应反馈规划
本文提出了 AdaPlanner,一种基于闭环反馈的语言模型智能体自适应地改进生成的计划,并通过新的技能发现机制,使其能够在更复杂的任务和环境中实现更好的连续决策性能,实验结果表明 AdaPlanner 在 ALFWorld 和 MiniW - 带偏好的受控多样性:朝着学习多样化的技能集合
本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。
- 辅助人类进行运动控制任务的教学
提出了一种利用强化学习中的技能发现方法来辅助教授机动控制任务,并通过混合合成和用户研究证明使用技能辅助教学方法能提高学生绩效 40%,个性化教学可进一步提高 25%。
- 神经进化是技能发现中替代强化学习的竞争性方法
通过在 8 种最先进的方法上进行广泛的实证评估,本文证明了 Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案,既可以提供相同甚至更好的性能,而且对超参数更不敏感且可扩展性更高。
- ICLR一个接着一个:为一个不断变化的世界学习增量技能
该研究提出了一种新的技能发现的架构,通过递增学习的方式获得新技能,以适应不断变化的环境,并且在质量和下游任务解决能力方面显著优于现有方法。
- ICML贝叶斯非参数方法用于离线技能发现
本篇文章中,我们提出了一种基于离线学习的技能框架,并探索了贝叶斯非参数化与离线技能发现之间的未知联系,提出了一种无需指定技能数目的非参数化方法,结果表明该方法可以在各种环境下优于现有的离线技能学习算法。
- ICLR直达而散射:增量式无监督技能发现以实现状态覆盖和目标达成
本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法,使用互信息框架,引入了 UPSIDE 方法,解决了探索空间覆盖度和导向性之间的平衡问题,通过学习一组多样化的技能,将其组成可不断扩展的树来解决稀疏 reward 任务。在 - ICML使用数据驱动指导学习任务无关技能
本文提出了一种使用学习的状态投影来引导技能发现,从而使得强化学习的代理人在特定任务中获得了更有用的行为。
- 探索、发现与学习:基于无监督方式的状态覆盖技能发现
本文提出了一种名为 ' 探索、发现、学习 '(Explore, Discover and Learn, EDL)的方法,用于在没有面向任务的奖励功能的情况下获取技能,从而解决现有信息理论技能探索算法的覆盖问题,并在受控环境中进行全面的评估
- 具有技能发现的分层合作多智能体强化学习
为实现人工智能在团队比赛中与人类的合作,本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法,并通过实验验证其可行性。
- 具有动态感知的无监督技能发现
通过结合基于模型的和基于非模型的机器学习方法,本文提出了一种无监督学习算法 DADS,用于发现易于预测的行为和学习它们的动态,提高了规划算法的效率和性能。