BriefGPT.xyz
Ask
alpha
关键词
dynamic regret bound
搜索结果 - 3
具有相关噪声的差分隐私在线联邦学习
我们提出了一种新颖的差分隐私算法,用于在线联合学习,通过使用时间相关的噪声来提高效用并确保连续发布的模型的隐私性。
PDF
3 months ago
分布时变在线随机优化在条件风险价值统计学习中的应用
在本文中,我们通过在线优化的视角,考虑了一个遵循随时间变化的分布的随机优化问题序列。假设损失函数满足 Polyak-Lojasiewicz 条件,我们应用在线随机梯度下降并建立了其动态遗憾界,其中包含由随机性引起的累积分布漂移和累积梯度偏差
→
PDF
10 months ago
AAAI
非平稳目标和约束的可证明高效原始 - 对偶强化学习在 CMDPs 中的应用
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的 RL 算法,同时建立了动态遗憾界和约束违规界。
PDF
2 years ago
Prev
Next