具有有限重复次数的泛化嵌套展开策略调整

Jan, 2024

具有有限重复次数的泛化嵌套展开策略调整

Generalized Nested Rollout Policy Adaptation with Limited Repetitions

Tristan Cazenave

TL;DR通过限制特定层级上找到的最佳顺序的重复次数，我们改进了广义嵌套展开策略适应算法，从而避免了过于确定性的策略，实验证明这对于反向RNA折叠、旅行推销员问题和弱Schur问题这三个组合问题有所改进。

Abstract

generalized nested rollout policy adaptation (GNRPA) is a monte carlo search algorithm for optimizing a sequence of choices. We propose to improve on GNRPA by avoiding too →