BriefGPT.xyz
Ask
alpha
关键词
proto
搜索结果 - 2
PROTO: 迭代策略规范化离线到在线强化学习
PROTO 使用逐步演化的正则化项优化标准 RL 目标,实现离线到在线 RL 的路径,与各种方法高度适应并具有高效的在线调整性能。
PDF
a year ago
ProTo:面向程序驱动任务的程序引导 Transformer
通过程序引导任务进行学习,ProTo 结合语义和结构指导,并通过跨注意力和掩码自我注意力在规范和程序中的例程之间传递消息。在 GQA 视觉推理和 2D Minecraft 策略学习数据集上,ProTo 明显优于先前现有的最先进方法,并表现出
→
PDF
3 years ago
Prev
Next