Jun, 2024

上下文化混合集成 Q 学习:以控制先验快速学习

TL;DR结合强化学习和先验控制器可以获得两个世界中的最佳结果:强化学习可以解决复杂的非线性问题,而控制器可以确保更安全的探索和加快训练。本文提出了一种新的自适应混合强化学习算法,通过动态调整加权来适应强化学习代理当前的能力,从而提高数据效率、探索安全性和对未知场景的可迁移性。