Jun, 2024
利用规范化权重函数改进多臂赌博机的奖励条件策略
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions
Kai Xu, Farid Tajaddodianfar, Ben Allison
TL;DR通过使用归一化权重函数来通过边缘化奖励构建策略的技术,改进了 reward-conditioned policies 并使其在具有大动作空间和稀疏奖励信号的挑战性多臂赌博问题上表现出优越性能。