Oct, 2023

奖励塑造对于更快乐的自主网络安全代理的研究

TL;DR研究论文探讨了奖励信号对深度强化学习算法训练自主网络防御代理的影响,研究了奖励信号的特性,结合惩罚和正向外部奖励进行训练,并评估了内在好奇心作为内部正向奖励机制的效果以及其在高级网络监控任务中的优势。