倒放体验回放的流式线性系统辨识

Mar, 2021

倒放体验回放的流式线性系统辨识

Streaming Linear System Identification with Reverse Experience Replay

Prateek Jain, Suhas S Kowshik, Dheeraj Nagaraj, Praneeth Netrapalli

TL;DR提出了一种基于流式数据的算法 SGD-RER，使用经验回放技术，利用数据依赖性结构分解和预测误差，以及线性系统辨识问题的第一阶段启发式算法，应用于更多的 LTI 识别设置和非线性动态系统中，并展示了利用数据依赖性结构设计统计和计算高效算法的可能性。

Abstract

We consider the problem of estimating a linear time-invariant (LTI) dynamical system from a single trajectory via streaming algorithms, which is encountered in several applications including reinforcement learning

streaming algorithms linear time-invariant systems reinforcement learning experience replay system identification

发现论文，激发创造

带有 Massart 噪声的流式线性和修正线性系统的随机梯度下降

提出了 SGD-exp，这是一种用于线性和 ReLU 回归的随机梯度下降方法，适用于完全流式设置下的 Massart 噪声（对抗性半随机破坏模型）。我们展示了 SGD-exp 对真实参数的新近线性收敛保证，在高达 50% 的 Massart 破坏率以及对称无知破坏的任何破坏率的情况下。这是首个针对流式设置中鲁棒 ReLU 回归的收敛保证结果，并且它展示了相对于之前鲁棒 L1 线性回归方法的收敛速度的改善，因为选择了指数衰减的步长，它在实践中具有高效性。我们的分析基于离散随机过程的漂移分析，这本身也可能很有趣。

Mar, 2024

在线对比散度与生成式回放：不需存储数据的经验重播

本研究提出了在线对比散度与生成回放 (OCD_GR) 方法，利用受限玻尔兹曼机 (RBM) 的生成能力来解决经验重放 (ER) 所带来的存储复杂度问题。在 9 个真实数据集上的实验结果显示，在 64.28% 的测试中，OCD_GR 方法表现优于 ER 方法，在 35.72% 的测试中，OCD_GR 表现相当，具有显著降低存储复杂度的优势。

Oct, 2016

具有短回顾的半监督漂移流学习

提出了一种基于生成回放框架的半监督漂移流学习方法，能够解决在机器学习中标记数据有限，数据漂移、历史流数据存储有限以及短视窗下的模型更新等问题。

May, 2022

在线张量推断

该论文介绍了一种新颖的在线推断框架，用于低秩张量学习，其中采用随机梯度下降，在不需要大量内存的情况下实现了高效的实时数据处理，大大降低了计算需求。该方法还提出了一种简单而强大的在线去偏置方法，用于顺序统计推断，从而消除了数据分割或存储历史数据的需求，使其适用于即时假设检验。

Dec, 2023

基于 SGD 的 l1 损失在线鲁棒回归

本文研究了在线情况下健壮线性回归问题，提出了一种基于随机梯度下降方法和 L1 损失函数的高效算法，能够在存在污染数据情况下有效检测和去除异常值，算法复杂度与污染比例相关。

Jul, 2020

流式推荐系统

本文提出 sRec 框架，使用变分贝叶斯方法来处理流式推荐系统数据，并在真实数据集上的实验结果表明其优于其他流推荐系统的算法。

Jul, 2016

高维广义线性模型中基于流数据的自适应无偏 SGD

在线统计推断使得实时分析顺序采集的数据成为可能，本文引入了一种针对高维广义线性模型的在线推断新方法，通过在每次新增数据到达时更新回归系数估计和其标准误差，与现有方法相比，该方法以单次传递模式运行，大大降低了时间和空间复杂度。方法的核心创新在于针对动态目标函数设计的自适应随机梯度下降算法，结合了一种新型的在线去偏过程，能够在有效控制由动态变化的损失函数引入的优化误差的同时，保持低维度的摘要统计量。我们的方法，即近似去偏套索（ADL），不仅减轻了有界个别概率条件的需求，而且显著提高了数值性能。数值实验证明了所提出的 ADL 方法在各种协方差矩阵结构下一致表现出鲁棒性。

May, 2024

在线目标 Q 学习与倒置经验回放：高效找到线性 MDP 的最优策略

本文研究了在强化学习中常用的 Q-learning 算法，在理论和实践之间的差距，并提出了两种改进方法，分别为 Q-Rex 和 Q-RexDaRe，这两个方法能够更有效地找到线性马尔科夫决策过程的最佳策略并提供了采样复杂度的非渐近界限。

Oct, 2021

迭代自回归：提高低延迟语音增强模型的新方法

本文介绍了一种简单、有效的技巧，用于训练自回归低延迟语音增强模型，证明了该技术在不同架构和训练场景下均导致了稳定的改进。

Nov, 2022

可分离随机逼近框架下的在线学习

我们提出了一个基于分离随机逼近框架的在线学习算法，其中对于某些具有线性特性的模型参数，我们采用递归最小二乘（RLS）算法进行更新，然后根据更新后的线性参数，采用随机梯度法（SGD）更新非线性参数，该算法可以理解为一种随机逼近版块坐标梯度下降方法，已经在非凸情况下获得全局收敛性，数值实验表明，该方法提高了收敛速度并在与其他流行学习算法比较时产生更稳健的训练和测试性能，此外，我们的算法对学习速率不太敏感并且优于最近提出的 slimTrain 算法。

May, 2023