Mar, 2024

基于广义占据模型的可转移强化学习

TL;DR智能代理应该是综合性的,能够快速适应和推广不同的任务,提出了一种新的模型类别 - 广义占据模型(GOM),它在保留模型强化学习的综合性的同时避免累积误差,通过直接建模长期结果,GOM 既避免了累积误差,又在任意奖励函数下保持了综合性。