May, 2024

结构化强化学习对激励性随机隐秘优化的应用

TL;DR本文研究了如何控制随机梯度算法(SG)以隐藏本地稳态点的估计,以防止窃听者获取。通过动态激励随机预测器和混淆窃听者,将隐蔽优化问题构建为有限视域马尔科夫决策过程(MDP)。通过使用成本和转移概率结构的区间优势条件,证明了 MDP 的最优策略具有单调阈值结构。本文提出使用随机逼近算法和多臂赌博机方法来搜索具有阈值结构的最优稳态策略,并在一个隐蔽联邦学习仇恨言论分类任务上进行了数值验证。