使用强化学习自动化分阶段发布

Apr, 2022

Automating Staged Rollout with Reinforcement Learning

Shadow Pritchard, Vidhyashree Nagaraju, Lance Fiondella

TL;DR本文研究了如何自动化分阶段软件发布，以加速缺陷发现，并通过多目标强化学习来平衡利益相关者的需求，例如交付新功能的时间和因潜在缺陷而导致的停机时间。

Abstract

staged rollout is a strategy of incrementally releasing software updates to portions of the user population in order to accelerate defect discove

发现论文，激发创造

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

多智能体展开算法与强化学习

本文介绍了一种基于本地回滚算法的多智能体决策方法，该方法通过配合其他智能体的协调信息，在每个阶段使每个智能体的决策都能够独立计算，并且与智能体数量无关。此外，我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率，并证明了本文算法可以收敛到智能体的最优策略。

Sep, 2019

Bayesian Optimization的高效展开策略

本文介绍了一种基于贝叶斯优化，采用基于滚动学习策略搜索的方法，其中引入了以减少计算负担为目的的仿准蒙特卡罗、公共随机数和控制变量等技术，应用于多模态目标和模型误差的贝叶斯优化领域中。

Feb, 2020

使用模型自由深度强化学习实现基于模型的强化学习中自适应的展开步长

本文将调整 rollout length 作为元策略决策问题，通过动态改变超参数来优化在固定环境互动预算下通过模型强化学习学习到的最终策略，使用深度强化学习解决元策略决策问题，并在两个常见的强化学习环境中展示了其优势。

Jun, 2022

平衡风险和回报：自动分阶段发布策略

这篇论文提出了通过一系列的A/B实验和自适应Bayesian方法来保证控制风险和最大化增长速度的策略，该方法被称为batched bandit问题，其中关键因素是实验预算。

May, 2023

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO，通过提倡更多的离群值扩展，基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化，并在理论上证明ORPO训练出的策略在线性MDP中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024

基于强化学习的连续集成跳过检测方法

该研究提出了一种利用深度强化学习技术构建最优决策树分类器的新型解决方案，以解决数据不平衡的问题，并通过对托管在GitHub上的多样化的开源项目进行内部和跨项目验证基准测试来展示了与现有最先进方法相比具有较好结果。

May, 2024

基于扩散的离线强化学习中的长时程回滚动态模型

探索如何将扩散模型（DMs）的能力作为动力学模型在完全离线环境中解耦，以允许学习策略展开轨迹，并展示了DyDiff在离线强化学习中的有效性。

May, 2024

长模型推演不是坏 Q-值估计的理由

本文研究使用模型基于离线强化学习和长模型回滚。研究表明，长回滚并不会导致指数增长的错误，而且实际上可以产生比无模型方法更好的Q值估计，这些发现有可能增强强化学习技术。

Jul, 2024

将强化学习作为现实生产调度的改进启发式方法

本研究解决了应用强化学习（RL）于现实多目标生产调度问题的不足。通过将RL代理训练为改进启发式，初始从次优解出发，逐步应用小变更以提升解的质量。实验表明，该方法在与其他启发式比较时表现出更优的性能，潜在地提升生产调度的效率。

Sep, 2024