- 概率演员 - 评论家:利用 PAC-Bayes 不确定性学习探索
Probabilistic Actor-Critic (PAC) algorithm improves continuous control performance by integrating stochastic policies an - 多臂赌博机策略对深度循环强化学习的影响
使用深度递归 Q - 网络和多臂赌博策略,研究自主驾驶情景中平衡探索和利用的方法,以及部分可观测系统中预测方向盘的影响。
- 学习通过选项框架整合强化学习的探索策略
提出了基于选项评论家模型的统一强化学习探索框架,该框架学习集成一组多样的探索策略,使得智能体能够自适应地选择最有效的探索策略,以实现给定任务的相关探索与利用平衡。通过在 MiniGrid 和 Atari 环境中进行各种实验验证了所提探索框架 - 强化学习中的扩散过程奖励塑造
本研究利用随机热力学和系统动力学的原理,探索通过扩散过程进行奖励塑造的方法,为探索 - 开发权衡提供了一个优雅的框架,并揭示了信息熵、随机系统动力学之间的关系及其对熵产生的影响,从而构建了一个双重框架,可作为派生有效策略的最大熵程序或计算信 - 自适应加权期望提升贝叶斯优化
本篇论文主要研究贝叶斯优化算法的采集函数,提出了自适应加权预期提高算法(SAWEI)用于数据驱动下的优化设计中,能够自我调整样本采集的策略,并且在多个基准测试平台上具有良好的表现和适用性。
- 预测算法故障模式高效识别
通过人机协作框架和随机采样算法,以设计平衡探索和利用的措施为手段,从未标记数据中高效地识别误分类模式,并运用行列式点过程构造生成器,展现了竞争性能的实验结果。
- 贝叶斯分层建模下主动学习回归的动态探索和利用权衡
本文提出了一种基于贝叶斯层次模型的动态平衡勘探和利用之间权衡的方法,并基于特征空间中数据样本的线性相关性,形成了一个近似贝叶斯计算方法,以从贝叶斯层次模型获得权衡参数的后验分布中进行抽样。模拟和真实世界的例子表明,与纯勘探和利用策略相比,所 - 具有对数最坏情况遗憾的量子强化学习的可证明高效探索
我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。
- 基于邻近状态的强化学习探索
本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。
- MEET: 一种用于缓冲区采样的 Monte Carlo 探索 - 利用权衡算法
本文提出了一种新的采样策略,基于 Q 值函数的不确定性估计,指导采样探索更重要的转移,从而学习到更有效的策略,实验表明,在各种环境下,该方法在收敛和峰值性能方面的表现平均超过现有策略 26%。
- 机遇性偶发式强化学习
本文提出和研究机会主义强化学习 - 一种新型强化学习问题变体,在外部环境条件下选择次优动作的后悔因子会发生变化。我们的算法通过引入变动因子相关的乐观估计来平衡探索和利用的权衡,并验证通过仿真实现了该算法。
- IJCAI风险感知多臂老虎机调查
本综述分析了在多臂赌博机情境下,风险度量的各种措施及其特性、各种风险度量的集中不等式、风险感知的赌博问题,包括在遗憾最小化设置中的算法和在最佳臂识别设置中的纯探索问题,以及未来研究的挑战和肥沃领域。
- BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs
本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架,并提出了一种基于 dropout 网络的新方法 BADDr,旨在解决 BRL 方法在拓展性上存在的瓶颈,并证实其在处理规模较大的情况时的有效性。
- 通过离线神谕在具有多个类别的情境下选择最优模型的方法
本研究提出了一种新的算法,用于解决上下文 Bandit 问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换,并具有与回归模型选择相同的计算要求。
- ICML学习针对移动目标进行定价
本文探讨在 Learning to Price 的环境下,当买家估值是一个移动目标的情况下,寻找一种使卖家能最大化收益的算法,并提供了对于最优收益损失的上下界限制。由于目标一直在移动,所以算法必须在探索和利用之间不断切换来保持最新的信息。
- 一种可证明有效的强化学习样本采集策略
本文提出了一种解决在线强化学习中勘探 - 利用问题的解耦方法,其中包括一种目标特定的算法和一种负责尽快生成预定样本的目标不可知的样本收集方法,并且利用这种方法在不同领域获得了增强的样本复杂度保证。
- MM多样性策略梯度用于高效样本质量多样化优化
本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。
- IJCAI随机高斯过程上置信区间的贝叶斯优化
为了提高贝叶斯优化的性能,我们开发了一种改进的高斯过程 UCB 采集函数。通过从一个分布中采样探索开发权衡参数,我们证明这允许期望的权衡参数能更好地适应问题而不会影响函数贝叶斯遗憾的约束,并提供结果表明我们的方法在一系列真实和合成问题中比 - IJCAI蒙特卡罗树搜索用于策略优化
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
- IJCAIAdaLinUCB: 基于上下文的赌博机的机会学习
本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。