Jun, 2023

面向离散和连续强化学习的安全任务组合

TL;DR本文基于布尔组合的模式,探究了学习任务的组成安全约束方面,在间格世界中运用价值迭代、在图像观察的网络中应用 Deep Q-Network (DQN),在连续 - 观察与连续 - 行动的子弹物理环境下应用 Twin Delayed DDPG (TD3),达到了对于 ' 零射击组成安全性策略 ' 的目标。