Dec, 2023

多分布学习的分布相关速率

TL;DR为了应对敏感机器学习应用中的不确定性建模需求,分布鲁棒优化(DRO)的设置在各种任务中寻求统一的良好性能。最近的多分布学习(MDL)框架以与环境的动态互动的方式解决了这一目标,在该框架中,学习者可以对每个目标分布进行采样访问。借鉴了纯探索多臂赌博机领域的观点,我们在 MDL 体制下提供了依赖于分布的保证,并且在与现有的分布无关分析相比,这种保证随着次优性差距的缩小而产生了优秀的样本大小依赖性。我们研究了两种非自适应策略:均匀探索和非均匀探索,并使用经验过程理论中的新工具提供了非渐进性后悔上界。此外,我们设计了一种自适应乐观算法 LCB-DR,展示了对差距的增强依赖性,类似于多臂赌博机文献中均匀分配和乐观分配之间的对比。