通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

Nov, 2023

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

Efficient Open-world Reinforcement Learning via Knowledge Distillation and Autonomous Rule Discovery

Ekaterina Nikonova, Cheng Xue, Jochen Renz

TL;DR深度强化学习的关键问题包括忘记和样本效率低下，该研究通过发现并利用空间信息推导任务特定规则，提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理，它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。

Abstract

deep reinforcement learning suffers from catastrophic forgetting and sample inefficiency making it less applicable to the ever-changing real world. However, the ability to use previously learned knowledge is esse

deep reinforcement learning catastrophic forgetting sample inefficiency task-specific rules novelty adaptation speed

发现论文，激发创造

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

在资源受限环境下利用知识蒸馏提升高效深度强化学习

通过挖掘深度强化学习（Deep Reinforcement Learning，DRL）与知识蒸馏（Knowledge Distillation，KD）相结合的潜力，本文通过蒸馏各种 DRL 算法并研究其蒸馏效果的方式，旨在减少深度模型的计算负担，在保持性能的同时实现高效与快速。研究目标是提供一个用于评估使用 KD 技术优化的不同 DRL 算法性能的基准。通过蒸馏这些算法，旨在开发高效和快速的 DRL 模型。此研究有望提供有价值的见解，促进这个有前途的领域的进一步发展。通过探索 DRL 和 KD 的结合，本研究旨在推动不仅需要较少 GPU 资源，还能在复杂环境中更快学习并做出更快决策的模型的发展。该研究的结果有能力显著推动 DRL 领域的发展，并为未来部署资源高效的决策智能系统铺平道路。

Oct, 2023

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018

目标条件下的 Q 学习作为知识蒸馏

本篇论文研究了强化学习在目标条件环境下的表现，提出了一种基于知识蒸馏的 Q 值函数更新方法，可以显著提高高维度空间下的目标条件策略学习，同时在多目标学习中也可以有效应用。此外，本研究还提供了一些理论支持，表明所提出的方法只需要 O (d) 个转移数据就可以完成目标任务，相较于标准的离线算法 DDPG 的需要至少 O (d^2) 个转移数据学习一个最优策略。

Aug, 2022

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

基于知识蒸馏的自主车辆规划中的可扩展高效交互感知

结合知识蒸馏的优化，通过训练小型网络，提高了自动驾驶交互感知中的路径规划的速度和精确性。

Apr, 2024

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

端到端深度强化学习实现车道保持辅助

本文提出了不同的深度强化学习方法用于自动驾驶，分别包括离散行动类别中的深度 Q 网络算法 (DQN) 和连续行动类别中的深度确定性演员 - 评论家算法 (DDAC)，并在 TORCS 模拟器中测试了其性能。

Dec, 2016