Jul, 2023

高效勘探 - 开发策略的近似信息

TL;DR本文提出了一种新方法,“近似信息最大化(AIM)”,通过使用熵梯度的解析逼近来选择每个时刻要拉哪个臂,从而解决了决策中固有的勘探 - 利用困境,实现了与 Infomax 和 Thompson 抽样相当的性能,同时提高了计算速度,确定性和易处理性。