混合变量问题的混合强化学习框架
本文提出了一种新颖的混合贝叶斯优化方法,通过扩散核对离散和连续变量建模,证明了其拥有普适逼近性质,并在合成数据和六个不同领域的实验中证明了其显著优于现有方法的优越性。
Jun, 2021
我们提出了一个框架来处理离散和连续变量的混合模型的随机规划问题,使用混合马尔可夫决策过程的方法,通过线性规划近似来解决这些问题,并遵循混合动态贝叶斯网络的表示形式,已在一系列控制问题中进行了实验。
Jul, 2012
本文介绍了一种新型的 Bayesian optimization(MiVaBo 算法),并且通过优化获取函数,在 mixed-variable 函数的优化过程中使其成为第一个能够处理离散变量复杂约束的 BO 方法,并提供了混合变量 BO 算法的第一个收敛分析,最后在多个具有超参数的调优任务中显示出 MiVaBo 显着比最先进的混合变量 BO 算法具有更高的样本效率,对于深度生成模型的优化更是如此。
Jul, 2019
本文提出了一种基于贝叶斯优化算法的方法,通过利用来自仿真的先验知识,自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略,从而减少实验次数和成本。
Mar, 2017
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
Oct, 2023
本文提出了一种称为 TD3AQ 的新颖的连续 - 离散强化学习算法,用于解决复杂的混合整数最优控制问题,并在混合动力汽车能量管理问题上进行了评估。
May, 2023
深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性能好,并在其他环境中取得了竞争性表现,只有少量计算成本的增加。
Jun, 2024
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
文章提出了一种名为 FMSTS 的新型增强学习方法,采用一种全新的分支策略来优化整数线性规划问题,具有一致性和泛化能力,并在计算实验中验证了其有效性。
May, 2020