- 具有随机停止时间的约束马尔可夫决策过程的安全增强学习
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集, - 扩散模型应用于大动作空间的情境强化学习
传播模型中的扩散汤普森抽样能够通过利用预训练的扩散模型中的相关性来提高在上下文强化学习中的效率,理论和算法基础的发展以及经验证明其良好的性能。
- LLM 的高效探索
我们提出了在改进大规模语言模型方面,通过高效探索收集人类反馈的实质性好处的证据。在我们的实验中,一个代理程序在逐步生成查询的同时,通过拟合奖励模型来获取反馈。我们最佳的代理程序使用双 Thompson 抽样来生成查询,不确定性则由一种认知神 - 基于虚拟行动演员 - 评论家框架的探索
通过引入虚拟行动演员 - 评论家框架(VAAC),本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架,其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明,VAAC 相比现有算法改善了探索性能。
- 超越想象:通过世界模型最大化情节可达性
本文介绍了一种名为 GoBI(Go Beyond Imagination)的新型内在奖励设计,结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励,通过应用学习到的世界模型生成具有随机动作的预测未来状态,从而给予那些在情节记忆 - 分布式深度探索的策略包
在复杂环境中进行高效的探索是强化学习中的一大挑战。本研究通过维护一组返回分布估计器副本的方法,即多策略集成(Bag of Policies),实现分布式强化学习的深度探索,提高学习和行为的多样性,并在 ALE Atari 游戏上的实验结果中 - ICML在多房间迷宫环境中推断层次结构
研究提出了一个分层主动推断模型,以应对从基于像素的观察中推断世界结构的挑战,其中包含认知地图,客体 / 自体世界模型和目标导向行为,能够在基于房间的小型网格环境中实现高效的探索和目标导向搜索。
- 通过认识价值估计的探索
本文提出了一种称为 epistemic value estimation (EVE) 的方法,用于有效探索在强化学习中的问题,EVE 方法适用于序列决策以及神经网络函数逼近器,利用其可计算的参数的后验概率,能够有效地计算出 epistemi - 使用基于模型的品质多样性和梯度的高效探索
本文介绍了一种基于模型的 Quality-Diversity 算法,该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性,从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。
- MUI-TARE:未知初始位置的多智能体合作探索
通过基于 lidar 的多智能体探测,结合自适应和协作式规划,对子图合并的鲁棒性和探测效率进行智能平衡,提高了环境探测效率 50% 以上。
- 儿童和计算模型中的探索学习因果过度假设
本文提出一种具有可控因果结构的强化学习环境,分别从计算机模型和儿童实验两个角度,发现信息增益和儿童探索在因果环境下的显著差异,展望了这些发现对于强化学习算法有效探索和消除因果结构歧义的新研究方向。
- ICML利用随机编码器最大化状态熵以进行高效探索
本文介绍了一种基于状态熵作为内在奖励的随机编码器(Random Encoders for Efficient Exploration,RE3)的探索方法,旨在解决高维观察空间中的有效探索问题,并在 DeepMind Control Suit - 基于表征空间的新颖性搜索,用于高效探索
通过将环境的低维编码与基于模型和无模型目标相结合的学习相结合,提出了一种有效探索的新方法,利用了基于低维表示空间最近邻之间的距离来衡量新颖性的固有奖励,进而在表示空间中利用这些固有奖励在奖励稀疏的困难探索任务中进行样本高效的探索。
- 强化学习中的无任务探索
该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架,用于解决强化学习中的有效探索挑战,该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略,并给出了基于样本奖励值的有效算法 UCBZero。
- 马尔可夫决策过程中的主动模型估计
本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题,提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题,并在简单的具有异构噪音的两个问题上进行了验证。
- ICLR自主推断子任务依赖关系的元强化学习
本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探 - 可转移的图探索学习
该研究考虑了人工智能中尚未开发过的环境在探索方面的问题,并提出了一种从环境分布中学习策略的方法,将其作为强化学习任务来处理,以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明,该方法在空间地图探索和领域特定程序和现实世界移动应用的覆 - ICML基于差异性的自监督探索
提出了基于活跃学习文献中的一种探索式学习方法,该方法使用动态模型集成,通过最大化这些集成之间的差异性来训练智能体,从而使该智能体自我监督地学习技能,无需外部奖励,并且还利用该探索方法来优化代理的策略而不使用强化学习
- 随机梯度 MCMC 的元学习
本文提出了第一个元学习算法,可以自动设计 SG-MCMC 采样器的连续动力学,学习的采样器泛化了 Hamiltonian 动力学,并且在贝叶斯全连接神经网络和贝叶斯循环神经网络任务上进行了验证,表明学习采样器优于通用手动设计的 SG-MCM - 当简单探索具有样本效率:确定随机探索达到 PAC RL 算法的充分条件
本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。