Sep, 2018

具有定性反馈的决斗式对抗

TL;DR研究了一种名为 Qualitative Dueling Bandit (QDB) 问题的多臂老虎机问题,提出了可直接估算每个臂直接胜出率的解算法,并在理论和实验上证明了算法在使用质量反馈时表现出色。