双生成器离线强化学习

Nov, 2022

Dual Generator Offline Reinforcement Learning

Quan Vuong, Aviral Kumar, Sergey Levine, Yevgen Chebotar

TL;DR本文介绍了一种名为 DASCO 的新方法，用于解决离线强化学习 (GAN) 中存在的矛盾目标问题，该方法采用了双生成器，其中一个最大化回报，另一个捕捉不属于行为策略的数据分布的 “剩余部分”，这两者的混合物接近于行为策略，并近似支持约束，通过在子优数据上进行基准测试，表明 DASCO 明显优于之前的方法，实现了分布约束。

Abstract

In offline rl, constraining the learned policy to remain close to the data is essential to prevent the policy from outputting out-of-distribution (OOD) actions with erroneously overestimated values. In principle, generative adversarial networks (GAN) can provide an elegant solution to

offline rl generative adversarial networks dual generator support constraint dasco

发现论文，激发创造

DiffPoGAN：离线强化学习中基于生成对抗网络的扩散策略

离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略，利用生成对抗网络生成多样的动作分布，使用最大似然估计方法生成近似行为策略分布的数据，并引入基于鉴别器输出的额外正则化项来有效约束策略探索，实验证明在离线强化学习领域超过了其他方法。

Jun, 2024

生成协作网络用于自然语言生成

本文介绍了一种使用协作式判别器架构来生成逼真文本样本的生成合作网络方法，并通过各种有效的解码方案实现了两项主要 NLG 任务的最优结果。

Jan, 2022

GAN 的在线自适应课程学习

提出了一种基于多个鉴别器网络来训练生成器的创新框架，通过更新分配给每个判别器的混合权重来反映生成器的进展情况，实验结果表明能够通过学习曲线来提高样本的质量和多样性。

Jul, 2018

改进带有不准确模拟器的离线强化学习

提出一种结合离线数据集和不准确模拟数据的新方法，通过预先训练生成对抗网络模型来适应离线数据集的状态分布，并通过鉴别器重新加权不准确模拟数据，实验证实该方法能够在 D4RL 基准和实际操作任务中比现有方法获得更好的性能。

May, 2024

自协同学习：生成器与鉴别器之间的协作

本文提出了一种自洽学习的框架，利用生成对抗网络的生成模型和判别模型的博弈优化，使两者协同训练，避免了 GAN 训练不稳定的问题，并在句子语义匹配问题上实现了较好的性能。

Mar, 2023

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

离线策略学习的深度生成模型：教程、调查和未来方向的展望

深度生成模型在离线策略学习中的应用的系统综述，涵盖了变分自编码器、生成对抗网络、Transformer 等主要深度生成模型以及它们在离线强化学习和模仿学习中的应用，提供了对相关研究领域进展的实用参考，并致力于启发改进基于深度生成模型的离线强化学习和模仿学习算法。

Feb, 2024

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

连接生成对抗网络和演员 - 评论家方法

本文就生成对抗网络与强化学习算法中的优化困难性问题进行了探索，指出两类算法在训练过程中的不稳定性问题，以及缓解这些问题的策略，并将 GAN 视为一种无法影响奖励的 actor-critic 方法。希望此理论联系能够激发 GAN 和 RL 社区开发具有通用性、可扩展性和稳定性的深度网络算法，并促进两个社区之间的创新灵感。

Oct, 2016

基于在线学习的生成对抗网络方法

本研究提出了一种名为 Chekhov GAN 1 的训练方法，将 GAN 的训练问题视为在零和博弈中找到一种混合策略，结合在线学习的思想，理论和实践证明了该方法收敛于半浅 GAN 体系结构，提高了稳定性和性能。

Jun, 2017