BriefGPT.xyz
大模型
Ask
alpha
关键词
environment interactions
搜索结果 - 2
小数据集,巨大增益:通过基于模型的增强学习的离线预训练来提升性能
基于离线数据的强化学习预训练改进的模型数据增强策略,可以减少所需数据规模,并大幅提高在线微调效果和降低环境交互次数。
PDF
7 months ago
ICML
从观察中模仿潜在策略
本文提出了一种新的模仿学习方法,直接从状态观测推断潜在策略,并引入了一种方法来描述潜在动作对观测的因果影响,同时预测它们的可能性,从而确定潜在和实际行为之间的映射。本文在经典控制环境和平台游戏中评估了该方法,并表明它的性能优于标准方法。
PDF
6 years ago
Prev
Next