- 面向鲁棒性模型驱动增强学习抵御对抗性破坏
这项研究处理了模型驱动的强化学习中的对抗性损坏方面的挑战,其中转移动态可能会受到对手的损坏。通过引入最大似然估计方法来学习转移模型,我们提出了旨在解决联机和脱机设置中的对抗性损坏问题的算法,并证明了这些算法的性能和下界。据我们所知,这是关于 - 线性上下文强化学习最佳方案
该研究探讨了在对抗性破坏下的 K 臂线性上下文赌博问题,并提出了一种在随机和对抗环境下具有理论保证的名为最佳两全(BoBW) RealFTRL 的策略。
- MM带对抗性污染的卡尔曼滤波
本文解决了常见的线性二次估计问题,提出了真正的鲁棒滤波器:在测量噪声被敌对地破坏了甚至只有一个常数部分时,我们给出了强有力的可证明保证。该框架可以模拟重尾和甚至非平稳的噪声过程。我们的算法在鲁棒化卡尔曼滤波器方面具有竞争力,可以与知道破坏位 - 强数据损坏下的鲁棒策略梯度
本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题,并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题,并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。
- UCB 赌博机上的近最优对抗攻击
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵 UCB 原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个 loglogT 的因子,因此我们的攻击接近最优。
- 近线性时间内的最优鲁棒线性回归
研究了高维稳健线性回归问题,在受到对抗性破坏的情况下提出了估计方法,包括样本复杂度,恢复保证,运行时间等关键指标,并利用近期算法发展的加速算法和高斯舍入技术等方法来优化估计器的运行时间和统计样本复杂性。
- 循环边消息传递的鲁棒群同步
我们提出了一个用于解决团体同步问题的一般框架,在拥有敌对或均匀污染和足够小的噪音的情况下,我们采用了一种新颖的消息传递过程,利用循环一致性信息估计了组比率的污染程度,从而解决了我们的同步问题。
- 具对抗性破坏的随机线性优化
将随机赌徒模型扩展到对抗性破坏模型,并应用于随机线性优化问题,采用 L"owner-John 椭球进行探索,并将时间分割成指数递增的时代以限制破坏的影响,使得算法对于适应性对手所选择的破坏的数量不可知,其遗憾只会在破坏数量线性增加时增加。
- 更好的随机赌博机算法与对抗性干扰
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
- 近线性时间高维鲁棒均值估计
本文针对高维下平均数估计的稳健模型、对抗性污染和相应算法进行研究,提出了一种基于当前猜测值参数化的 SDP 族的自然算法,并经证明该算法在次线性时间内逼近真实平均数并达到了理论误差的信息论最优解,同时认为该算法还能进一步实现高维稳健学习问题 - 关于鲁棒线性回归的高效算法及下界
研究了高维线性回归在对抗性污染下的稳健模型问题,并针对从高斯分布生成的未被修正的样本的基本情况给出了几乎最紧的上界和计算下界。
- MM对异常数据鲁棒的回归的高效算法
本文首次给出了一个多项式时间算法,用于在示例和标签中对抗性堕落下执行线性或多项式回归,并基于 SoS 方法提出了一种自然的凸松弛方法来解决非凸优化问题。
- 固定结构贝叶斯网络的鲁棒学习
研究了在部分样本被恶意破坏的情况下学习贝叶斯网络的问题,在这种情况下,提出了第一个计算有效、维度无关的鲁棒性学习算法,样本复杂度接近最优,能够实现线性比例的错误率,该算法在合成和半合成数据上表现良好。
- 通过硬阈值实现鲁棒回归
对稳健最小二乘回归(RLSR)中的扰动问题进行研究,提出了一种称为 TORRENT 的简单硬阈值算法,能够在存在干扰情况下恢复 w*,并且能够实现大规模高维度的稀疏恢复。该方法比最先进的 L1 求解器快 20 倍以上。