随机网络提炼的探索

Oct, 2018

Exploration by Random Network Distillation

Yuri Burda, Harrison Edwards, Amos Storkey, Oleg Klimov

TL;DR通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合，该研究在探索性 Atari 游戏中显著提高了性能，特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现，并有时完成第一级别。

Abstract

We introduce an exploration bonus for deep reinforcement learning methods that is easy to implement and adds minimal overhead to the computation performed. The bonus is the error of a →

reinforcement learning neural network exploration bonus random network distillation montezuma's revenge

发现论文，激发创造

分布式随机网络蒸馏中的探索与反探索

为了解决探索性问题，本文提出了一种改进的基于随机网络扰动的深度强化学习算法 (DRND)，通过提炼随机网络的分布和隐式引入伪计算，以改进奖励分配的精确度和鼓励更广泛的探索，有效地增强了探索过程，并在在线周期探索场景和离线任务中展现了更好的性能。

Jan, 2024

随机网络蒸馏的抗探索

本文研究了随机网络提炼 (RND) 在离线强化学习中作为不确定性评估器的应用，发现通过特定的调整可以达到有效优化的目的，并提出了一种基于 FiLM 的简单高效算法，其在 D4RL 基准测试中表现良好。

Jan, 2023

基于随机网络蒸馏的深度强化学习在 AGV 路径规划中的应用

在智能仓储系统中，自动引导车 (Automated Guided Vehicle, AGV) 的技术经历了快速发展，而路径规划是其中的关键挑战。此研究通过引入随机网络蒸馏 (Random Network Distillation, RND) 以及连续动作和位置的模拟环境，提出了一种改善 AGV 路径规划性能的方法，实验结果表明该方法能够在稀疏奖励环境中更快地完成路径规划任务。

Apr, 2024

自监督利用探索

本研究提出了一种基于内在动机的算法，采用自监督学习中的蒸馏误差作为新奇检测器，通过经验表明在十种难以探索的环境中，相对于基准模型，该方法能够更快地增长和获得更高的外部奖励，从而提高了在非常稀疏的奖励环境中的探索性能。

Feb, 2023

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

强化学习中利用 Rényi 状态熵加速探索

为解决深度强化学习中的长期探索能力问题，本文提出了一种基于 Rényi 熵的新型内在奖励模块，并通过较广泛的模拟结果证明了其高于现有方案的性能。

Mar, 2022

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

深度强化学习的关键问题包括忘记和样本效率低下，该研究通过发现并利用空间信息推导任务特定规则，提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理，它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。

Nov, 2023

嘈杂网络用于探索

本研究提出了一种名为 NoisyNet 的深度强化学习智能体，通过参数噪声的添加，可以有效地探索问题空间，在 Atari 游戏中，用 NoisyNet 替换传统的探索启发式方法后，智能体的分数得到了大幅提升，有些情况下，甚至可以达到超人类水平。

Jun, 2017

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020