Jul, 2024
因果型赌博机: 适应性的帕累托最优前沿, 相对于线性赌博机的简化以及对未知边际分布的限制
Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction
to Linear Bandits, and Limitations around Unknown Marginals
TL;DR本文研究了多臂赌博问题中适应因果结构的问题,探讨了条件性有利结构和任意环境中学习性能的权衡关系,并通过将问题转化为线性赌博设置,首次获得了因果赌博的实例相关界。