强化学习引导下的程序合成树搜索

NIPSJun, 2018

强化学习引导下的程序合成树搜索

Program Synthesis Through Reinforcement Learning Guided Tree Search

Riley Simmons-Edler, Anders Miltner, Sebastian Seung

TL;DR本文提出了一种新的程序合成方法，将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程，并将这种方法应用于浮点数 RISC-V 汇编语言的子集上，并结合基于搜索技术的优先搜索树，证明了我们的方法相较于其他基线方法的优越性

Abstract

program synthesis is the task of generating a program from a provided specification. Traditionally, this has been treated as a search problem by the programming languages (PL) community and more recently as a supervised learning problem by the machine learning community. Here, we propo

program synthesis markov decision process reinforcement learning risc-v assembly language priority search tree

发现论文，激发创造

基于强化学习的语法引导综合

在这项研究中，我们将通用 SyGuS 问题作为树搜索框架，并提出了一种基于蒙特卡洛树搜索 (MCTS) 的增强学习引导合成算法。我们的算法结合了学习到的策略和值函数，以及平衡探索和利用的树上置信上界。我们还介绍了一种基于现有一阶可满足性问题的反合一方法自动生成 SyGuS 的训练数据。通过这些成果，我们的工具在训练和测试集中相比基准枚举算法提高了 26 个百分点，超过了 1 CVC5 等最先进工具的表现，同时我们还公开了我们的数据集以便于进一步应用机器学习方法解决 SyGuS 问题。

Jul, 2023

利用语法和强化学习进行神经程序合成

本文提出了两种新的方法来解决程序合成中的限制，分别通过增加语义正确生成的概率和语法正确的程序的概率来解决。

May, 2018

基于程序综合的混合优化强化学习方法

本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Jul, 2018

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

使用 REPL 进行程序合成：编写、执行、评估

该论文提出了一种神经程序合成方法，该方法使用读取 - 执行 - 打印循环 (REPL) 集成组件来定位可能程序的搜索空间，并通过训练政策模型和价值函数模型，能够合成文本编辑和 2D、3D 图像程序。

Jun, 2019

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

一种可验证强化学习的归纳综合框架

本文研究如何使用形式化验证技术对增强学习 - enabled 机器学习系统进行验证，以保证其行为安全，并提出了一种基于黑盒方法的综合确定性程序的方法来实现系统验证。

Jul, 2019

具有优先队列训练的神经程序合成

研究程序综合，基于输出的奖励函数，通过优化方法和利用循环神经网络 (RNN) 训练找到最优解。使用 BF 语言进行基准测试，证明 priority queue training (PQT) 算法比遗传算法和强化学习算法更有效。同时，在奖励函数中增加程序长度惩罚，可合成简洁易读的程序。

Jan, 2018

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022