BriefGPT.xyz
Ask
alpha
关键词
continual offline reinforcement learning
搜索结果 - 1
基于扩散双生成回放的连续离线强化学习
我们研究了连续离线强化学习,这是一种实用的范例,用于前向转移和减轻灾难性遗忘,以应对顺序离线任务。我们提出了一种双生成重播框架,通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型,使策
→
PDF
3 months ago
Prev
Next