BriefGPT.xyz
大模型
Ask
alpha
关键词
scheduling problems
搜索结果 - 3
超越训练:通过自适应动作采样优化基于强化学习的工作车间调度
利用经过训练的深度强化学习智能体进行推理的优化参数化方法,该方法通过调整训练好的行为向量,使智能体在解决方案构建过程中更好地探索或开发,进而在有限的计算预算情况下生成更多可接受的解决方案。
PDF
23 days ago
在强化学习中模仿受成本约束的行为
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
PDF
3 months ago
IJCAI
人机协同优化通过学徒调度
通过成对排名的形式来捕捉领域专家的启发式方法,以推动人机协作优化。此技术在武器到目标指派问题上表现出比人类专家产生的解更好,而且速度更快,可用于解决比人类演示者解决的问题的两倍复杂问题。
PDF
6 years ago
Prev
Next