Jan, 2022

学习剪枝的改进强化学习算法

TL;DR本文提出了基于深度强化学习的分支定界算法,该算法利用离线模仿学习与自主生成数据相结合的优化方法,并且引入了一种优先存储机制来控制二者之间的混合比例,以此提高算法的性能表现。文章在三个公共研究基准上对所提出的算法进行了评估,并与三种经典的启发式方法以及一种先进的模仿学习算法进行了比较。研究结果表明,所提出的算法在性能上表现最佳,并具有不断提高分支定界算法性能的潜力。