Jun, 2023

组合优化中的对称探索是自由的!

TL;DR提出了一种 “免费” 技术,通过利用对称性来增强任何基于深度强化学习(DRL)的求解器的性能,而不需要额外的目标函数评估。这种方法通过奖励保持变换来扩充 DRL 的训练,并且在 NP 硬路由优化、计划优化和革新物质优化等诸多领域得到了广泛的实证评估,展现了优异的样本效率。