- 基于灵活的图形增强探索策略优化表格数据
通过使用特征状态转换图,我们引入了一种新的方法来解决当前自动特征工程框架中存在的限制,并通过全面的实验证明了其在不同场景下具有优越的性能。
- 自我探索的语言模型:在线对齐的主动偏好引导
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
- 目标条件的强化学习中通过自适应技能分配实现目标探索
通过自适应技能分布来优化探索效率,并且提高对环境结构模式的利用,这能够显著改善目标导向强化学习中的探索效率,并在具有类似局部结构的未知任务中展现强大的泛化能力。
- 行星车快速且最优的基于学习的路径规划方法
智能自主路径规划的关键是提高行星探测器的探索效率。本文提出了一种基于学习的方法,用于在高程地图中快速搜索最优路径,称为 NNPP 模型。该模型通过大量预注释的最优路径示范中学习起点和目标位置的语义信息以及地图表示,并生成每个像素的概率分布, - 走向基础模型统一的智能体
通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力,我们设计了一个框架,将语言作为核心推理工具,能够处理一系列强化学习挑战,如有效的探索、重用经验数据、调度技能以及从观察中学习,从而改进了在模拟的机器人操作环境中的性能,并展示了如何 - 一种非马尔可夫算法的覆盖时间研究
本文以理论角度为出发点,研究负反馈策略在遍历算法中的应用,论证该方法可以在任意图中提高搜索效率,并对经典 UCB 和 MCTS 算法提供新的见解。
- 利用别名观测加速潜在图的探索与学习
该论文提出了一种名为 eFeX 的算法,该算法能够大大提高探索效率,尤其在存在问题的拓扑结构中更为有效,通过对概率观测的处理,在状态不明确的情况下,实现了取得观测结果的最优决策。
- 异步多智能体强化学习用于高效实时多机器人协同探索
我们提出了一种异步的多智能体强化学习算法,Asynchronous Coordination Explorer (ACE),可以在处理机器人探索问题时减少实际探索时间,并通过使用基于 CNN 的策略将遗失的机器人维护在一个团队中。
- 基于因果推断的强化学习层次化结构发现
本论文提出了 CDHRL 框架,通过因果驱动探索而非随机驱动探索来构建高质量的分层结构,以提高分层强化学习的探索效率。实验表明,在 2D-Minecraft 和 Eden 两种复杂环境中,CDHRL 显著提高了探索效率。
- 基于风险意识元层决策的不确定探索
本研究提出了一种基于风险感知的元层决策框架来平衡本地和全局勘探的权衡,将覆盖计划者的传统层次结构建立在元层决策制定的基础上,利用环境历史、可通过性风险和运动动力学约束等信息来决定本地和全局决策之间的转换,进而提高大规模环境勘探的效率。
- 具有可操作感知的多模态神经 SLAM 学习行为
提出一种神经 SLAM 方法,利用多种模态进行探索,预测可承受意义地图并在其上进行规划,从而显著提高了探索效率,实现了鲁棒的长程规划,使得机器智能能够更有效地识别视觉和语言信息。在 ALFRED 基准测试中,相对先前发表的作品,提出的 Af - ICLR强化学习中的时间协调探索的生成规划
通过生成式规划方法可以更有效地进行值最大化的策略优化,从而实现对多步骤动作的生成和增强,进而提高探测效率和行动反应的自适应性。
- 计划性内在驱动:对内在驱动探索的分层性见解
本文提出了一种调度内在驱动(SID)代理,通过将内在和外在操作策略分离和调度之间,增加探索效率并稳定学习,并引入了后继特征控制(SFC)作为内在奖励的一种新类型,考虑了完整轨迹上的统计信息。实验结果表明,使用 SFC 和内在驱动的分层使用,