- 强化学习中的无模型主动探索
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探 - 超越乐观:具有部分可观察奖励的探索
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
- 通过 ε- 重新训练提高政策优化
我们提出了一种名为 ε- 重新训练的探索策略,该策略旨在在保证政策单调改进的同时鼓励一种行为性偏好。我们介绍了一种收集重新训练区域的迭代过程,即智能体没有遵循行为性偏好的状态空间的部分。我们的方法使用逐渐减小的因子 ε 在常规均匀重启状态分 - ICML从词语到行动:揭示 LLM 驱动的自主系统的理论基础
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体 - 探索直至自信:面向体验式问答的高效探索
我们提出了一种基于语义推理和视觉语言模型的方法,通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。
- RadDQN: 基于深度 Q 学习的最小辐射暴露路径发现架构
近期深度强化学习技术在自动化领域引起了广泛关注,本文介绍了一种基于深度 Q - 学习的架构(RadDQN),该架构利用感知辐射的奖励函数,为辐射区域提供了时间高效的最小辐射暴露路径,并通过一套独特的探索策略进行优化。与基准方法相比,我们的模 - 基于不确定性的在线抓取学习的探索策略
该研究提出了一种用于机器人抓取预测的在线学习方法,通过有效的探索策略显著提高了其适应未知环境设置的性能,该方法根据贝叶斯不确定性量化和分布集成提出了各种不确定性估计方案,并在不同难度的实际场景中进行了评估,结果显示与传统在线学习方法相比,该 - 基于地标的主动探索与稳定底层策略学习
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
- 使用遗忘采样器在低秩结构的多臂老虎机中进行纯探索
该论文考虑了纯探索问题回报序列的低秩结构,提出了一种分离设置的探索策略,并通过利用奖励向量的核信息,提供了高效算法,同时展示了多臂赌博机问题下纯探索的上下界。
- 一种简单的统一的基于不确定性引导的离线到在线强化学习框架
基于离线数据的强化学习方法,通常在实际应用中性能较低,本篇研究提出了一种基于不确定性的 Simple Unified uNcertainty-Guided (SUNG) 框架,通过量化不确定性,设计了一种乐观的探索策略,以及一种自适应的开发 - 强化学习中多样化回放的泛化作用
本研究通过理论和实证方法,探讨从不同角度对多任务强化学习的泛化性能进行提升,发现增加回放缓冲区中的转换的多样性有助于提高对训练期间 “可达” 和 “不可达” 状态的泛化能力和潜在表示的泛化能力。
- 反馈图网络在线学习:损失函数的真实形态
本论文主要介绍了一种基于反馈图的顺序学习问题,提出了一个名为 problem complexity 的新概念,并创建了一个既定算法,实现了对此设置的最小化失望度量的最优解。
- 潜在世界模型对于连续强化学习的惊人有效性
本文研究了基于模型的强化学习方法,特别是对于持续强化学习的世界模型的应用。结论表明,使用世界模型是一种简单且有效的持续强化学习基准。
- 从范例物体轨迹和预抓取中学习熟练的操作技能
本文介绍了一个基于 Pre-Grasp 的框架,可以生成各种不同的巧妙操作行为,无需特定任务的推理或超参数调整,并通过 TCDM 基准验证了其有效性。
- 在多智能体强化学习中利用语义 Epsilon 贪心探索策略
本文提出了一种名为 QMIX (SEG) 的新方法,利用值函数分解方法 QMIX 训练每个 agent 的策略以及新颖的语义 ε 贪心 (SEG) 探索策略。实验证明,SEG 通过在行动的组空间中进行探索,可以更好地促进语义探索,并已经在 - AAAI多环境下的无监督强化学习
本文提出了一种针对多个环境的无监督强化学习方法,即先通过多个环境的交互数据对策略进行预训练,然后在任意环境下对其进行微调;提出了一种探索策略探索环境中的关键状态;最终通过实验证明了该方法相较从头开始学习的方法明显优势。
- 离线元学习探索
通过离线数据,基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题,研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益,探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题 - 线性动态系统中带快速稳定的强化学习
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
- AAAI一种基于内在动机的学习方法,用于学习高度探索和快速运动策略
本文提出一种新的代理与环境相互作用下的探索策略,旨在最小化步骤数、最大化稳态分布熵的下界,并引入三个下界分别对应三个最优化问题,再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。
- 分布式鲁棒强化学习
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态 / 操作空间中扩展了此方法,得出了分布式鲁棒软演员 - 批评家算法的实用算法。