该研究提出了一个神经和符号端到端强化学习架构,能够克服当前深度学习技术的局限性,如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例,展示了这个架构的实现原型,结果表明它能够有效地学习,并通过获得一组符号规则,可将性能提高到比传统完全神经强化学习系统更好的水平。
Sep, 2016
本文研究了使用增强学习来动态选择并加权选择多个学习模型的效果,在此基础上提出了优化和校准方法,并将其应用于安全策略的迁移,结果显示该方法具有高度的鲁棒性。
Sep, 2022
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023
本文提出了一种名为 UDRL 的方法,该方法利用监督学习技术学习行为,不需要奖励预测或寻找最优策略,通过训练智能体遵循指令而不是预测奖励的方法,可以在多个情境环境下产生一系列有用的行为,并且在某些任务上其表现甚至超越了传统基准算法,并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。
Dec, 2019
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
使用基于搜索的方法的 Indago 工具,通过在深度强化学习中训练分类器来预测特定环境配置下机器学习代理的故障情况,以此作为适应度函数来生成更多故障环境配置,实验结果表明,此方法比现有技术多发现 50%的深度强化学习代理的故障
May, 2023
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
通过对行为限制的自适应行为成本,提出了一种新的方法称为自适应行为成本在强化学习中(ABC-RL)来训练一种具有竞争力的类人代理,以达到与人类相似的表现和行为水准。
Sep, 2023
该论文提出一种更为积极的方法改进深度强化学习中的强健性,采用最小化最大后悔作为优化方法,并证明该方法可显著提高性能。