Dec, 2023

基于可微凸规划的约束元元强化学习用于可调适安全保证

TL;DR通过元学习方法,本文研究了在非稳态环境下确保安全性的独特挑战,并采用可微凸规划的连续凸约束策略更新,以实现在受限环境中的元学习和快速任务适应。