BriefGPT.xyz
Ask
alpha
关键词
deterministic context encoder
搜索结果 - 1
FOCAL:通过距离度量学习和行为规范实现高效完全离线的元强化学习
本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法
→
PDF
4 years ago
Prev
Next