在线优化的具有记忆成本的强化学习

May, 2023

在线优化的具有记忆成本的强化学习

Robustified Learning for Online Optimization with Memory Costs

Pengfei Li, Jianyi Yang, Shaolei Ren

TL;DR提出一种新的 Expert-Robustified Learning (ERL) 方法，即利用专家在线算法进行投影运算实现对机器学习行为（即 Online Optimization with Memory Costs）的强度鲁棒性，并通过递归神经网络模型进行传递专家在线算法的平均性能训练，从而在内存成本上提高行为竞争性能和稳健性。

Abstract

online optimization with memory costs has many real-world applications, where sequential actions are made without knowing the future input. Nonetheless, the memory cost couples the actions over time, adding subst

online optimization memory costs expert-robustified learning machine learning reinforcement learning

发现论文，激发创造

具有强鲁棒性保证的边加权在线二分匹配学习

本研究提出了一种基于强化学习的新型边权重在线二分图匹配方法（LOMAR），以实现良好的平均情况和最坏情况下的性能，其中，关键新颖的操作是根据谨慎的条件决定是否跟随专家的决策还是 RL 决策。

May, 2023

具备反馈延迟的平滑在线凸优化的鲁棒学习

我们研究了一种具有多步非线性切换成本和反馈延迟的挑战性平滑在线凸优化（SOCO）形式，提出了一种新颖的机器学习（ML）增强的在线算法，名为 Robustness-Constrained Learning（RCL），它通过受限投影将不受信任的 ML 预测与可信的专家在线算法结合起来，以增强 ML 预测的鲁棒性。具体而言，我们证明了 RCL 能够对于任何给定的专家保证（1+λ）竞争力，其中 λ>0，同时以鲁棒性感知的方式明确地训练 ML 模型以提高平均性能。重要的是，RCL 是第一个在多步切换成本和反馈延迟情况下具有可证明的鲁棒性保证的 ML 增强算法。我们以电动交通的电池管理为案例研究，展示了 RCL 在鲁棒性和平均性能方面的改进。

Oct, 2023

学习增强在线算法的最优韧性 - 一致性平衡

研究如何将机器学习预测融入在线算法以提高性能，并提供非平凡的下界来衡量竞争分析的最优权衡.

Oct, 2020

从几何视角看概率鲁棒学习的边界问题

本文提出了对于概率鲁棒学习方法的新的几何观点，针对其原始公式存在的细微缺陷，引入了一族概率非局部周长函数，通过新颖的松弛方法证明了解的存在性，并研究了所引入的周长的性质与局部极限。

May, 2023

RORL: 基于保守平滑的强化学习离线稳健性算法

本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术，用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题，同时还能在性能和鲁棒性上实现权衡，并取得了非常好的表现。

Jun, 2022

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

鲁棒离线强化学习 -- 确认置信区间

开发了一种算法，并使用随机平滑来获得对给定策略的离线鲁棒性认证，证明了其有效性，并在不同环境实验证明了算法的正确性。

Sep, 2023

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023