Dec, 2023

稀疏线性强化学习问题中,用于贪婪算法的新类臂特征分布

TL;DR在这篇论文中,我们考虑了稀疏背景下的上下文强化学习问题,其中臂特征通过稀疏参数的内积影响奖励。我们证明了贪心算法适用于更广泛的臂特征分布,提出了与高斯混合、离散和径向分布相关的新分布类,确保样本的多样性,从而为贪心策略在非常广泛的臂特征分布上提供了理论保证。