Jun, 2024

超越训练:通过自适应动作采样优化基于强化学习的工作车间调度

TL;DR利用经过训练的深度强化学习智能体进行推理的优化参数化方法,该方法通过调整训练好的行为向量,使智能体在解决方案构建过程中更好地探索或开发,进而在有限的计算预算情况下生成更多可接受的解决方案。