Jun, 2023
面向离散和连续强化学习的安全任务组合
Safety-Aware Task Composition for Discrete and Continuous Reinforcement
Learning
TL;DR本文基于布尔组合的模式,探究了学习任务的组成安全约束方面,在间格世界中运用价值迭代、在图像观察的网络中应用 Deep Q-Network (DQN),在连续-观察与连续-行动的子弹物理环境下应用 Twin Delayed DDPG (TD3),达到了对于'零射击组成安全性策略'的目标。