现实世界强化学习的挑战

Apr, 2019

Challenges of Real-World Reinforcement Learning

Gabriel Dulac-Arnold, Daniel Mankowitz, Todd Hester

TL;DR介绍了 Reinforcement Learning 在实际场景应用中的九个挑战及相应的方法和评估指标，并给出了一个示例领域用于实际 RL 研究的测试平台。

Abstract

reinforcement learning (RL) has proven its worth in a series of artificial domains, and is beginning to show some successes in real-world scenarios. However, much of the research advances in RL are often hard to

reinforcement learning real-world scenarios challenges approaches metrics

发现论文，激发创造

现实世界强化学习挑战的经验研究

本文针对强化学习在实际问题中难以部署的问题，提出了一系列的挑战，并通过 Markov 决策过程定义这些挑战并分析其影响，同时探讨了一些现有的解决方法。为了验证算法的可部署性，我们提出并开源了 realworldrl-suite 套件作为一个基准测试集。

Mar, 2020

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021

实践中的强化学习：机遇与挑战

本文是对强化学习领域的实际应用、机遇和挑战进行较为温和的讨论，涉及深度学习、机器学习和人工智能等多个方面，并且重点考虑了强化学习在产品与服务、游戏、推荐系统、机器人技术、交通、金融和经济、医疗保健、教育、组合优化、计算机系统、科学和工程等方面的应用。其中也讨论了强化学习面临的基础、表达、奖励、探索、模型、仿真、计划、基准测试、离线学习、元学习、可解释性、约束、软件开发和部署、商业化等多个挑战。最后，本文试图回答 “为什么强化学习在实践中并没有被广泛采用？” 和 “什么时候强化学习有用？” 两个问题。

Feb, 2022

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

强化学习自然环境基准

本文提出了三类全新的强化学习基准测试领域，包含了一定数量的自然世界的复杂性，同时支持快速而广泛的数据采集，此举将挑战强化学习社区开发更加稳健的算法以满足高水准的评估要求。

Nov, 2018

深度强化学习系统部署：挑战分类

该研究通过对开发人员常见问题解答平台 Stack Overflow 上的相关帖子进行实证研究，揭示并理解开发人员在部署深度强化学习系统时面临的挑战。结果显示，DRL 部署比其他问题更困难，而与 RL 环境相关的挑战是最常见和最困难的。希望这项研究能够激发未来的研究，并帮助社区克服开发人员在部署 DRL 系统时面临的最常见和最困难的挑战。

Aug, 2023

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

利用真实世界机器人设置强化学习任务

本篇论文研究了基于实际机器人的强化学习，提出了一种学习任务并分析了实验设置对学习性能、可重复性和公平比较的影响，并为未来的实验者提供了一些缓解措施。

Mar, 2018

真实世界机器人强化学习的要素

本研究提出了一种基于强化学习的机器人学习系统，通过无需人工干预的自主学习，在真实世界环境下实现智能机器人的不断优化和提高。以灵巧操作为案例研究，探究了在无工具化监控和无手工奖励函数的情况下学习的挑战，并提出了简单、可扩展的解决方案，通过多次灵巧操作任务实验验证了该系统的高效性和优越性。

Apr, 2020

强化学习中的结构：综述与开放问题

为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战，该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率，并将结构信息的不同模式进行了分类，并提供了设计模式方面的新视角。

Jun, 2023