广义数据分布迭代

Jun, 2022

Generalized Data Distribution Iteration

Jiajun Fan, Changnan Xiao

TL;DR研究同时实现高样本效率和卓越绩效的深度强化学习模型，将挑战分解为两个经典强化学习问题，数据丰富性和探索 - 开发权衡，并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来同时解决这两个挑战，最终将这个过程整合到广义策略迭代中，提出了更为通用的广义数据分布迭代技术，并在 Arcade Learning Environment 上获得了超越 22 个人类世界纪录的最新性能。

Abstract

To obtain higher sample efficiency and superior final performance simultaneously has been one of the major challenges for deep reinforcement learning (DRL). Previous work could handle one of these challenges but typically failed to address them concurrently. In this paper, we try to ta

deep reinforcement learning sample efficiency exploration-exploitation training data distribution generalized data distribution iteration

发现论文，激发创造

通用强化模仿及其在基于视觉的自动驾驶中的应用

本研究提出了一种名为 GRI 的新方法，将探索和专家数据的优点相结合，简单易实现。通过提出离线演示智能体的概念，将专家数据与在线探索智能体的经验同时处理，证明了该方法在基于视觉的城市道路场景下的自主驾驶和 Mujoco 连续控制任务上的有效性，并在 CARLA Leaderboard 上取得了第一名。

Nov, 2021

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022

数据收集对于训练通用目标达成策略的重要性

本文提出了一个基于无监督探索方法的机器人学习模型 ChronoGEM，以能够均匀涵盖可能状态空间为目标。研究了数据量和数据质量对训练通用控制器的影响，并证明数据量和数据质量对于训练高精度达成目标的策略至关重要，以达到各种连续控制情况下的高保真姿势达成。

Nov, 2022

使用层次行动探索的深度强化学习实现对话生成

本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Mar, 2023

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

异步情节式深化确定性策略梯度法：面向计算复杂环境的连续控制

本文提出了一种扩展 Deep Deterministic Policy Gradient (DDPG) 的算法 Asynchronous Episodic DDPG (AE-DDPG)，通过异步学习和组合应用周期控制和动态噪声等技术，该算法在连续控制任务中取得更好的结果，具有更高的奖励和更高的数据利用效率。

Mar, 2019

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

一般分布学习：深度学习的理论框架

广义分布学习（GD Learning）是一种全新的理论学习框架，通过包含先验知识并最小化学习误差来提高性能，以处理深度学习中的各种问题，包括超参数化、非凸优化、偏差 - 方差权衡和平坦极小值的机制等。

Jun, 2024

GEP-PG：深度强化学习算法中探索和开发的解耦

本文提出了一种将 Goal Exploration Process 和 DDPG 算法结合的 GEP-PG 算法，该算法在涉及到探索的环境中比 DDPG 算法表现更佳，而在采用梯度下降优化策略时仍然保持高效。在低维迷惑奖励问题和更大的 Half-Cheetah 基准测试中，我们研究了这些组件及其组合的学习性能。

Feb, 2018

使用表格和深度强化学习的吉廷斯指数

提出了一种基于退休公式的表格 (QGI) 和深度强化学习 (DGN) 算法来学习 Gittins 指标，在大状态空间问题中运行时间更短、存储空间要求更低 (QGI 中小的 Q 表尺寸，DGN 中较小的重放缓冲区)，并且展现了更好的实证收敛性，是现有方法的可行替代。

May, 2024