BriefGPT.xyz
Ask
alpha
关键词
resource-constrained online scenarios
搜索结果 - 1
基于因果提示的基于模型的离线强化学习
基于模型的离线强化学习可以在不需要额外或不道德的探索的情况下充分利用预先收集到的数据集。然而,将基于模型的离线强化学习应用于在线系统面临挑战,主要是由于在线系统生成的数据集高度次优(充满噪声)和多样化的特点。为了解决这些问题,我们引入了适用
→
PDF
2 months ago
Prev
Next