Jul, 2018
基于偏好的 Dueling Bandits 在线学习:综述
Preference-based Online Learning with Dueling Bandits: A Survey
Viktor Bengs, Robert Busa-Fekete, Adil El Mesaoudi-Paul, Eyke Hüllermeier
TL;DR本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。