AAAIMay, 2018

使用基于 Bandit 的方法学习鲁棒的搜索策略

TL;DR通过采用基于赌博机的学习技术来自动选择搜索启发式方法,我们的方法在线学习和选择一组搜索启发式方法,旨在获得具有健壮性和比原先性能更好的自适应搜索启发式方法。初步实验表明,自适应技术比原始搜索启发式方法更为健壮且性能更好。