- Roesser 型卷积层的状态空间表示
从控制论的角度看,卷积层(神经网络的一部分)是二维(或 N 维)线性时不变动态系统。我们提供了 Roesser 类型的二维卷积层的状态空间表示,以便使用控制论中的分析工具,比如线性矩阵不等式。此表示对于输入 / 输出通道数相等的情况已被证明 - 基于采样的安全强化学习在非线性动力系统中的应用
我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法,填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式,在学习过程和实际应用中满足硬约束条件,同时享有经典的收敛保证,我们在仿真 - C-GAIL: 使用控制理论稳定生成对抗模仿学习
Generative Adversarial Imitation Learning (GAIL) 使用强化学习来优化 GAN-like 判别器的奖励信号,但存在训练不稳定的问题。本文通过控制论分析 GAIL,提出一种新的控制器 'C-GAI - 稳定自主流匹配
本文研究了具有稳定数据点的深度生成模型和控制理论之间的联系,并使用随机稳定性工具对流匹配模型进行了特征化。
- 利用反馈循环进行对抗训练
该论文提出了一种基于控制理论的新型强化方法,它使用反馈控制构建了一种神经网络架构,通过训练来稳定系统输出,从而增强对抗攻击的防御能力。通过实验结果表明,该方法相比于现有技术在标准测试问题上具有更高的有效性。
- 用布朗运动控制器稳定 GAN 的训练
本文从控制理论的角度出发,设计并应用了一种基于高阶噪声的通用控制器 Brownian Motion Controller (BMC),并在 DiracGANs 和普通 GANs 中进行了实验,发现使用 BMC 能够提高 GANs 训练的稳定 - 您的价值函数是控制障碍函数:使用控制理论验证学习策略
本篇研究提出了将控制理论中的验证方法应用于学习价值函数中的 RL 问题,由此得出关于安全维护的价值函数与控制障碍函数之间联系的原始定理,并提出用于安全控制任务验证价值函数的新指标和实用的实现细节。此外,该研究作品还利用控制理论中的验证方法实 - 反步时间差分学习
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
- 机器人中的安全学习:从基于学习的控制到安全强化学习
本文综述了机器学习在实现安全决策方面的最新进展,并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法,并强调了在近距离与人类操作时安全性至关重要。此外,作者还强调了未 - ICML控制理论在游戏中的在线优化:连接遗憾、被动性和庞加莱循环
通过控制理论中能量守恒的概念,将在线优化与游戏学习结合起来,证明了所有连续时间的 Follow-the-Regularized-Leader 动态都是无损耗的,这启发我们构建了一族具有简单梯度结构的无损耗学习动态,并将其拓展到了图形常和游戏 - 神经 ODE 控制用于分类、逼近和传输
从控制理论角度分析神经常微分方程(NODEs),研究其在数据分类和通用逼近等深度学习范式中的应用,提出了同时控制 NODE 系统的方法以及建立了深度神经网络和最优输运之间的联系。
- 使用控制理论理解和稳定 GAN 的训练动态
运用控制理论中的闭环控制方法,通过直接建模 GANs 功能空间中的动力学模型,提出了一种稳定 GANs 训练的方法,并取得了最先进的数据生成任务性能。
- Maya: 动态控制伪造功率侧信道
Maya 提出了一个简单而有效的解决能源侧信道攻击的方法,通过控制理论技术重新塑造应用程序所消耗的能量,防止攻击者获取敏感数据,可在特权软件或简单硬件中实现。
- KDD将 Lyapunov 控制理论连接到对抗性攻击
本文提出控制理论的方法应用于对抗攻击的防御,通过建立较弱对手的证明性防御来阐明控制理论的内在价值。
- 复杂网络的多尺度动态嵌入
基于控制理论,我们提出了一种描述节点间动态相似性的时间依赖动态相似度度量,该度量可用于减少复杂系统网络的描述,并可用于发现功能模块。通过案例研究,我们展示了该方法在不强连通的有向网络和带符号网络上的应用,并将社区检测方法与控制理论相结合。
- 简单随机搜索提供了竞争性的增强学习方法
通过介绍一种随机搜索算法,我们证明了基于策略参数空间的随机搜索方法与探索动作空间的方法在样本效率方面没有显著差异。该算法可在连续控制问题中训练静态、线性策略,并在 MuJoCo 任务基准测试中表现出与最先进的模型无关方法相当的样本效率。此外 - 基于收缩观察器的流形学习方法用于数据驱动的时间序列分析
本文提出了一种基于数据驱动的方法来构建动力系统的固有模型,该模型采用流形学习技术 (diffusion maps) 来学习动力系统的潜变量的固有模型,然后借助控制理论的概念和工具,建立线性收缩观察器,以逐次方式估计新来的测量数据中的潜变量。 - 利用高斯过程学习不确定非线性系统的吸引区域保证
本文利用控制理论和高斯过程模型设计了一种利用实验数据学习非线性系统吸引子区域的方法,能够在保障安全的前提下主动扩展其吸引区域的估计值。
- KDD睡眠分析和在线选择性异常检测
介绍了一种新问题:在线选择性异常检测(OSAD)用于模拟对睡眠科学的研究。这种方法结合了机器学习和控制理论技术,可以很好地检测和触发警报,针对非 SS 异常而言,从数据结果来看非常有效。
- 集合的线性矩阵不等式表示
本文考察线性矩阵不等式的表示范围,讨论了 LMI 在控制理论中的应用,提出了刚性凸性的必要条件和严格可行条件,并证明了 m=2 时的充分必要条件。