深度强化学习邀请

Dec, 2023

An Invitation to Deep Reinforcement Learning

Bernhard Jaeger, Andreas Geiger

TL;DR通过将强化学习视为监督学习的一种推广，本文介绍了一个与经典强化学习教材不同的方法，使读者在了解基本的监督学习知识后能够理解类似于近端策略优化（PPO）的最新深度强化学习算法。

Abstract

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is

deep neural networks supervised learning reinforcement learning non-differentiable objectives proximal policy optimization

发现论文，激发创造

神经网络训练与非可微目标函数

本论文探讨了计算机视觉领域中非可微目标函数的训练问题，提出了使用可微的代理函数进行训练的解决方案，使得神经网络训练更易扩展到新型任务，包括可分解和不可分解的评估指标。

May, 2023

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

生成式人工智能的强化学习综述

深度生成人工智能是机器学习社区中长期关注的重要话题之一，能够影响文本生成和计算机视觉等多个应用领域。最大似然估计是训练生成模型的主要范式，通过减少模型分布和目标分布之间的差异来捕捉和近似目标数据分布。然而，该目标无法满足用户对生成模型的全部要求。增强学习作为一种竞争性选择，能够通过创建新目标以利用新信号来注入新的训练信号，具有灵活性和强大的能力，能够从多个角度遵循人类的归纳偏好，如对抗学习、手工设计规则和学习奖励模型等。因此，增强学习已成为一个热门的研究领域，在模型设计和应用方面拓展了生成人工智能的界限。虽然最近在不同应用领域存在一些调查报告，但本综述旨在提供一个高级别的综述，涵盖了广泛的应用领域，包括严格的分类和对各种模型和应用的充分覆盖。值得一提的是，本综述还调查了快速发展的大规模语言模型领域。通过展示可能解决当前模型限制并扩展生成人工智能前沿的潜在方向，我们总结了本综述。

Aug, 2023

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

深度强化学习简介

介绍了深度强化学习的模型、算法和技术，着重讨论与泛化相关的方面以及深度强化学习在实际应用中的使用。

Nov, 2018

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021

任意经验的模仿：强化学习和模仿学习方法的双重统一

该研究论文旨在通过对强化学习，凸优化和无偏学习方法进行研究，提出了一种新方法，即对偶 RL 方法，可以用于从离线偏置数据中进行无偏学习。

Feb, 2023

深度强化学习中的迁移学习：综述

调查了深度强化学习中迁移学习方法的最新进展，提供了对目标，方法，兼容强化学习骨架以及实际应用等方面分析的框架，并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。

Sep, 2020

多目标深度强化学习

文章提出 DOL 方法，通过使用高维输入的特征，计算包含所有潜在最优解的凸组合集，解决了高维多目标决策问题，并提供了一个包含两个实验的基准测试平台用于深度多目标强化学习。

Oct, 2016