Apr, 2024

多阶段系统的分布式无悔学习与端到端强化学习反馈

TL;DR本文研究具有端到端赌博反馈的多阶段系统,提出了分布式在线学习算法,以在对抗环境中实现次线性遗憾。