BriefGPT.xyz
Ask
alpha
关键词
performance regret
搜索结果 - 2
AAAI
可证明的无需重制强化学习算法
提出了一种重置免费的强化学习算法,将重置免费 RL 转化为两个玩家的博弈,以达到次线性性能失误和次线性重置总数。此外,提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。
PDF
2 years ago
基于多臂赌博机的联邦学习客户端调度
本文提出了一个基于多臂赌博机策略的在线客户端调度(CS)框架,用于减少联邦学习中数百到数千个通信轮延迟。两个基于上置信区间(UCB)策略的 CS 算法(CS-UCB 和 CS-UCB-Q)被提出以应对不理想的本地数据集的非独立、不平衡属性和
→
PDF
4 years ago
Prev
Next