Mar, 2022

REPTILE: 一种主动实时深度强化学习自适应框架

TL;DR该论文提出了一种名为REPTILE的自适应软件系统的通用框架,它完全采用主动方式,并依赖于基于深度强化学习的代理程序来响应事件,称为新奇性,这些新奇性可能影响系统的预期行为。该框架考虑两种类型的新奇性:与环境相关的和与物理架构本身相关的,预测出这些新奇性,提取出环境的时间变化模型,并使用适当的马尔可夫决策过程来处理实时设置,此外,我们的RL代理的架构会根据可能采取的行动进化。