BriefGPT.xyz
Ask
alpha
关键词
reward scarcity
搜索结果 - 1
基于变分因果推理的离线模仿学习
离线模仿学习中,通过使用计反事实数据增强方法,本研究通过对抗性生成反事实样本来有效消除困扰智能体泛化能力的误导特征,从而解决了专家数据稀缺、仅能记忆差劣轨迹以及环境变化引起的问题。实验结果表明,该方法在内部分布稳健性和外部分布泛化能力方面显
→
PDF
10 months ago
Prev
Next