BriefGPT.xyz
Ask
alpha
关键词
bandit linear optimization
搜索结果 - 2
元学习对抗强盗算法
该论文研究了具有 bandit feedback 的在线元学习,目的是通过某种自然的相似性度量改善类似的多个任务的性能。
PDF
a year ago
ICML
在线学习的差分隐私代价
本文提出了一种确保差分隐私的在线线性优化算法,其完全信息情况下的后果与 epsilon 无关,但在轮盘线性优化和非随机多臂匪徒的情况下,其遗憾上限是一个 $ ilde {O}$ 函数,同时使时间复杂度在 $\tilde {O}(\frac
→
PDF
7 years ago
Prev
Next