Jul, 2012
探索 / 开发策略的元学习:多臂赌博机案例
Meta-Learning of Exploration/Exploitation Strategies: The Multi-Armed Bandit Case
Francis Maes, Damien Ernst, Louis Wehenkel
TL;DR本研究提出了一种基于元学习方法的新的解决方案,可以在一个特定的 E/E 问题类别上利用先前的知识,从而找到一个平均表现最佳的候选 E/E 策略。此方法在两种不同的假设空间中都取得较好的实验结果和鲁棒性评估。