为程序综合和语义解析优化的记忆增强策略

Jul, 2018

为程序综合和语义解析优化的记忆增强策略

Memory Augmented Policy Optimization for Program Synthesis and Semantic Parsing

Chen Liang, Mohammad Norouzi, Jonathan Berant, Quoc Le, Ni Lao

TL;DRMemory Augmented Policy Optimization (MAPO) improves policy gradient's sample efficiency and robustness on tasks with sparse rewards. When applied to weakly supervised program synthesis from natural language, it achieves state-of-the-art accuracy with only weak supervision.

Abstract

We present memory augmented policy optimization (MAPO), a simple and novel way to leverage a memory buffer of promising trajectories to reduce the variance of policy gradient estimate. MAPO is applicable to deterministic environments with discrete actions, such as structured prediction

memory augmented policy optimization trajectory sparse reward program synthesis semantic parsing

发现论文，激发创造

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

V-MPO：基于最大后验策略优化的离散与连续控制的策略更新算法

本文研究了一种新的强化学习方法 V-MPO，基于学习到的状态值函数进行策略迭代以提高性能，在多个测试套件中实现了更好的成绩，在高维度、连续动作空间的问题中也取得了成功。

Sep, 2019

最大后验策略优化

介绍了一种基于最大后验策略优化的强化学习算法，并开发出两种离线策略算法，证明了它们在深度强化学习方面与现有方法的竞争力，并在连续控制方面提高了样本效率，避免了过早收敛和对超参数设置的鲁棒性。

Jun, 2018

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

增强记忆：利用经验重放加速全新分子设计

本研究提出了一种名为增强记忆的算法，通过数据增强和经验回放相结合，实现了序列建模中的采样效率的提升，相较于之前使用的算法，在药物发现的任务上表现更优。

May, 2023

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Nov, 2023

基于记忆的轨迹条件策略在稀疏奖励学习中的应用

本文提出了一种基于轨迹条件的策略学习方法，通过从内存缓冲区中展开多种多样的过去轨迹，可帮助策略创造者更好地探索状态空间，并在各种复杂任务中显著提高模型性能。（本方法可以不用专家演示或将模型重置为任意状态，在 Atari 游戏 Montezuma's Revenge 和 Pitfall 的五十亿帧内取得了最先进的得分）

Jul, 2019

高效深度多智能体强化学习的表示学习

通过辅助学习目标，MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率，并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。

Jun, 2024