基于程序综合的混合优化强化学习方法

ICMLJul, 2018

基于程序综合的混合优化强化学习方法

Towards Mixed Optimization for Reinforcement Learning with Program Synthesis

Surya Bhupatiraju, Kumar Krishna Agrawal, Rishabh Singh

TL;DR本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Abstract

deep reinforcement learning has led to several recent breakthroughs, though the learned policies are often based on black-box neural networks. This makes them difficult to interpret and to impose desired specific

deep reinforcement learning program synthesis black-box neural networks policy improvement cartpole problem

发现论文，激发创造

强化学习引导下的程序合成树搜索

本文提出了一种新的程序合成方法，将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程，并将这种方法应用于浮点数 RISC-V 汇编语言的子集上，并结合基于搜索技术的优先搜索树，证明了我们的方法相较于其他基线方法的优越性

Jun, 2018

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

利用语法和强化学习进行神经程序合成

本文提出了两种新的方法来解决程序合成中的限制，分别通过增加语义正确生成的概率和语法正确的程序的概率来解决。

May, 2018

通过集成程序合成和状态机来解决长期任务

提出了 Program Machine Policies (POMPs)，它集成了程序化强化学习和状态机策略的优势，能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序，并将其用作状态机的模式，学习过渡函数以在模式程序之间进行转换，从而捕捉长期重复行为，并在各种任务上优于程序化强化学习和深度强化学习基线模型。

Nov, 2023

通过迭代局部搜索进行编程策略提取

通过结合模仿投影、数据集聚合和局部搜索启发式，我们提出了一种直接提取预训练神经策略的程序化策略的简单方法，该方法在编程问题和摆动问题上实现了可解释性和高效性。

Jan, 2022

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

可编程可解释强化学习

提出了一种编程可解释性强的强化学习框架 (PIRL)，使用高级领域特定编程语言表示策略，提出了基于神经网络生成的策略的可验证和可解释的替代方案，用基于神经网络的 NDPS 算法来优化 PIRL 策略，这种策略较容易被解释和验证，实验结果证明，与传统的深度强化学习相比，PIRL 策略的轨迹更平滑易于迁移。

Apr, 2018

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

多目标强化学习中随机环境和局部决策问题的解决

本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Nov, 2022