生成式人工智能的强化学习综述

Aug, 2023

Reinforcement Learning for Generative AI: A Survey

Yuanjiang Cao, Lina Yao, Julian McAuley, Quan Z. Sheng

TL;DR深度生成人工智能是机器学习社区中长期关注的重要话题之一，能够影响文本生成和计算机视觉等多个应用领域。最大似然估计是训练生成模型的主要范式，通过减少模型分布和目标分布之间的差异来捕捉和近似目标数据分布。然而，该目标无法满足用户对生成模型的全部要求。增强学习作为一种竞争性选择，能够通过创建新目标以利用新信号来注入新的训练信号，具有灵活性和强大的能力，能够从多个角度遵循人类的归纳偏好，如对抗学习、手工设计规则和学习奖励模型等。因此，增强学习已成为一个热门的研究领域，在模型设计和应用方面拓展了生成人工智能的界限。虽然最近在不同应用领域存在一些调查报告，但本综述旨在提供一个高级别的综述，涵盖了广泛的应用领域，包括严格的分类和对各种模型和应用的充分覆盖。值得一提的是，本综述还调查了快速发展的大规模语言模型领域。通过展示可能解决当前模型限制并扩展生成人工智能前沿的潜在方向，我们总结了本综述。

Abstract

Deep generative ai has been a long-standing essential topic in the machine learning community, which can impact a number of application areas like text generation and computer vision. The major paradigm to train a generative model is →

generative ai maximum likelihood estimation reinforcement learning comprehensive review large language model

发现论文，激发创造

生成型人工智能的强化学习：现状和机遇，开放研究挑战

通过应用强化学习于生成型人工智能，我们讨论了现有技术水平、机会以及开放性研究问题。具体而言，我们分析了三种应用情况，包括没有指定目标的生成方法、在最大化目标函数的同时生成输出的方法，以及将难以通过目标函数捕捉到的所需特征嵌入生成过程的方法。这一令人着迷的新兴领域的机会和挑战也在调查中得到了深入讨论。

Jul, 2023

生成人工智能：系统综述和应用

人工智能与生成式人工智能的应用领域，特别是语言生成与伦理考虑的最新研究成果与未来发展轨迹的综合分析。

May, 2024

深度强化学习简要调查

深度强化学习是 AI 领域的一项重大进展，可以构建具有更高层次视觉世界理解能力的自主系统。本文综述了深度强化学习的中央算法，包括基于价值和基于策略的方法，并重点介绍了深度神经网络在强化学习中的独特优势，最后描述了该领域内的几个当前研究方向。

Aug, 2017

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

深度强化学习中的迁移学习：综述

调查了深度强化学习中迁移学习方法的最新进展，提供了对目标，方法，兼容强化学习骨架以及实际应用等方面分析的框架，并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。

Sep, 2020

强化学习：一项调查

本论文从计算机科学的角度调查了强化学习领域，包括历史、现状和实践应用等方面，并重点探讨了强化学习中的中心问题，如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。

May, 1996

深度强化学习的生成式人工智能：框架、分析与应用案例

使用生成式人工智能（GAI）来提高深度强化学习（DRL）算法的性能，解决样本效率低和泛化能力差的问题，通过介绍经典的 GAI 和 DRL 算法及其应用，并展示了 GAI 增强 DRL 算法的实际集成框架，提供了一个基于无人机辅助的近场 / 远场通信的案例研究来验证框架性能，并介绍了几个未来的研究方向。

May, 2024

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

深度强化学习教科书

本书提供了深度强化学习领域的全面概述，主要涵盖了建立领域基础，算法和应用，同时介绍了一些先进主题，如深度多智能体强化学习、深层次强化学习和深元学习；本书适用于人工智能的研究者、从业者和研究生，假定读者具有本科水平的计算机科学和人工智能理解，编程语言使用 Python。

Jan, 2022

自动强化学习（AutoRL）：调查和开放问题

通过对自动强化学习的调查，我们提供了一个共同的分类法、详细讨论了每个领域并提出了研究中感兴趣的开放性问题。

Jan, 2022