像素到策略：用于跨游戏和游戏内强化学习的 DQN 编码器

Aug, 2023

像素到策略：用于跨游戏和游戏内强化学习的 DQN 编码器

Pixel to policy: DQN Encoders for within & cross-game reinforcement learning

Ashrya Agrawal, Priyanshi Shah, Sourabh Prakash

TL;DR强化学习应用于各种任务和环境中，通过学习可在不同任务和环境间转移的策略，能够提升学习效率和性能，并在多个游戏环境中实现了显著的结果。

Abstract

reinforcement learning can be applied to various tasks, and environments. Many of these environments have a similar shared structure, which can be exploited to improve RL performance on other tasks. transfer learning

reinforcement learning transfer learning rl models universal game-playing agent dqn model

发现论文，激发创造

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

使用 Q 网络表示的转移强化学习在不同操作空间中的应用

本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性，提出了一种基于源嵌入相似性的奖励塑形方法，可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上，基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果，但在离散动作空间中确实表现出了改进。

Feb, 2022

通过函数编码器实现零样本强化学习

通过使用函数编码器来表示奖励函数或转换函数，学习代理机器人在运行时如何与先前的任务相关联的方法，并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。

Jan, 2024

使用矢量量化编码的深度强化学习

该研究提出了一种名为向量量化的强化学习插件框架，基于向量量化编码的辅助分类任务将状态特征聚类，以提高深度强化学习方法的可解释性，并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险，该方法在模拟中证明了其提高了可解释性，并研究了其对深度 RL 鲁棒性和泛化能力的影响。

Nov, 2022

通过图像翻译实现相关强化学习任务的迁移学习

通过将视觉迁移任务与控制策略分离，使用不对齐的 GANs 对目标到源域的视觉映射，再使用不完美演示的模仿学习进一步改进，提高了 Deep RL 在 Breakout 合成视觉变体和 Road Fighter 的传输行为中的样本效率和迁移能力。

May, 2018

通过对策略分布进行建模的迁移学习

探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题，我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。

Jun, 2019

共享学习：增强 Q 集成中的强化学习

通过提出 Shared Learning 框架，在 $Q$-ensemble 算法中实现了传输学习，以此达到提高深度强化学习的数据效率和加速学习过程的目的，而不需要大量数据的使用。

Sep, 2017

感知增强学习中的差分编码观测空间

通过差分编码观察空间，将基于图像的观察重新解释为视频，并利用无损差分视频编码方案来压缩回放缓冲区，以降低记忆占用，提高学习性能和延迟。

Oct, 2023

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Sep, 2018