BriefGPT.xyz
Ask
alpha
关键词
expert experience
搜索结果 - 1
增强模仿学习策略的在线适应性
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实
→
PDF
a month ago
Prev
Next