Jun, 2024

利用规范化权重函数改进多臂赌博机的奖励条件策略

TL;DR通过使用归一化权重函数来通过边缘化奖励构建策略的技术,改进了 reward-conditioned policies 并使其在具有大动作空间和稀疏奖励信号的挑战性多臂赌博问题上表现出优越性能。