BriefGPT.xyz
Ask
alpha
关键词
dynamics changes
搜索结果 - 2
自适应离线到在线强化学习的剩余学习和上下文编码
离线强化学习通过离线数据集学习顺序行为,但实际应用中离线和在线阶段的转换动力学常常变化,所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法,在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换
→
PDF
24 days ago
ICML
非静态环境下的多模态技能单次模仿
通过探索复杂任务的组合性,我们提出了一种新颖的基于技能的模仿学习框架,实现了一次性模仿和零次适应,能够从单个演示中学习复杂任务,并针对随时间变化的环境隐藏动力学优化行动序列,通过视觉 - 语言模型学习语义技能集合,并使用动力学推断来实现零次
→
PDF
5 months ago
Prev
Next