BriefGPT.xyz
Ask
alpha
关键词
end-to-end bandit feedback
搜索结果 - 1
多阶段系统的分布式无悔学习与端到端强化学习反馈
本文研究具有端到端赌博反馈的多阶段系统,提出了分布式在线学习算法,以在对抗环境中实现次线性遗憾。
PDF
3 months ago
Prev
Next