结构化强化学习对激励性随机隐秘优化的应用

May, 2024

结构化强化学习对激励性随机隐秘优化的应用

Structured Reinforcement Learning for Incentivized Stochastic Covert Optimization

Adit Jain, Vikram Krishnamurthy

TL;DR本文研究了如何控制随机梯度算法（SG）以隐藏本地稳态点的估计，以防止窃听者获取。通过动态激励随机预测器和混淆窃听者，将隐蔽优化问题构建为有限视域马尔科夫决策过程（MDP）。通过使用成本和转移概率结构的区间优势条件，证明了 MDP 的最优策略具有单调阈值结构。本文提出使用随机逼近算法和多臂赌博机方法来搜索具有阈值结构的最优稳态策略，并在一个隐蔽联邦学习仇恨言论分类任务上进行了数值验证。

Abstract

This paper studies how a stochastic gradient algorithm (SG) can be controlled to hide the estimate of the local stationary point from an eavesdropper. Such problems are of significant interest in distributed optimizatio

stochastic gradient algorithm distributed optimization federated learning covert optimization markov decision process

发现论文，激发创造

控制联邦学习的隐蔽性

通过利用随机性，本文研究了在学习者通过查询具有噪声的梯度评估的分布式 Oracle 的同时，向恶意窃听者隐藏 min (f) 的问题，将控制随机梯度算法用于隐蔽优化建模为马尔可夫决策过程，并证明动态规划算子具有超模结构，推导出最优策略具有单调阈值结构。提出了一种计算效率较高的策略梯度算法，用于在不知道转移概率的情况下搜索最优查询策略。在一个联邦设置中，将我们的方法应用于恶意窃听者可以使用最优权重生成更易误分类的有毒内容的恶意言论分类任务。数值结果表明，当学习者使用最优策略时，窃听者在没有信息时只能达到 52％的验证精度，当窃听者拥有 10％的正样本的公共数据集时，可以达到 69％的验证精度，而学习者使用贪婪策略时为 83％。

Aug, 2023

分散式随机非凸优化问题的混合方差缩减方法

本文研究了分散式随机优化的网络问题，提出了一种新的单循环分散式混合降低方差随机梯度下降算法 GT-HSGD，并度量了其优化性能。

Feb, 2021

分散随机优化与梯度追踪简介

本文综述了基于梯度追踪和方差减少的去中心化随机一阶优化方法，介绍了这些算法在去中心化机器学习模型训练中的应用。

Jul, 2019

分布式随机梯度追踪方法

本文研究了分布式多智能体优化问题，其中每个智能体拥有一个光滑和强凸的本地代价函数。在仅具有本地代价函数梯度的无偏估计时，我们提出了一种分布式随机梯度跟踪方法（DSGT）和一种类似于 Gossip 的随机梯度跟踪方法（GSGT），并展示了这些方法对大规模网络的可比性能和通信成本的差异。

May, 2018

随机博弈中的在线强化学习

本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG，在同类算法中取得了更好的效果，可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态，提高了博弈的竞争性能。

Dec, 2017

通用和随机博弈纳什均衡学习的去中心化策略梯度

研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念，并提出了两种算法，一种是针对精确伪梯度的，另一种是针对未知伪梯度的。

Oct, 2022

一种混合随机策略梯度算法用于强化学习

提出了一种新的混合随机策略梯度估计器，并使用此估计器开发了一种新的混合随机策略梯度算法（ProxHSPGA）来解决复合策略优化问题，该算法可以处理策略参数上的约束或规则化，已经在强化学习中的一些示例上进行了评估和验证。

Mar, 2020

风险敏感随机最优控制的 Rao-Blackwellized Markovian Score Climbing

该论文介绍了一种新颖的方法，通过从条件粒子滤波器中抽取样本，将风险敏感的随机控制看作马尔科夫评分上升问题，提供了渐进无偏估计的梯度优化策略，避免了显式值函数学习，通过在随机动态系统的数值基准测试中展示其有效性，应用于学习神经非高斯反馈策略。

Dec, 2023

强连通网络上带梯度跟踪的分布式随机优化

本文针对代理节点组成的网络上局部代价函数的最小化问题，提出了一种使用异步算法，通过辅助变量迭代逼近全局代价函数的梯度的算法，并使用行和列马尔科夫矩阵来保证算法的一致和最优性。同时，通过数值仿真，验证了该算法的可用性。

Mar, 2019

具有马尔可夫数据的随机约束随机优化

本文研究了基于 Markov 链采样的随机约束随机优化问题，将 drift-plus-penalty 方法推广至这一设置，提出了两种变体，分别适用于已知和未知混合时间的情况，同时适用于约束函数序列遵循 Markov 链的一般设置，通过在分类中引入公平约束的数值实验证明了我们所提方法的有效性。

Dec, 2023