BriefGPT.xyz
Ask
alpha
关键词
batch complexity
搜索结果 - 2
自适应约束下的自训练近最优强化学习
多智能体强化学习中,通过引入自适应约束,我们设计一种基于消除的算法,在低批次复杂度下实现了对马尔可夫博弈的极小后悔,并且证明了匹配上界的批次复杂度下限,进一步地在理解低适应性的多智能体强化学习方面提供了首个一系列结果。
PDF
5 months ago
批处理最佳臂识别的最优算法
我们提出了三批最佳臂识别(Tri-BBAI)算法和几乎最优的批量最佳臂识别(Opt-BBAI)算法,分别在渐近和非渐近设置中实现了最优的样本复杂度和批量复杂度,并设计了一种独立的程序来检查是否消除了最佳臂。
PDF
9 months ago
Prev
Next