BriefGPT.xyz
大模型
Ask
alpha
关键词
rl performance
搜索结果 - 1
强化学习中的物体位置追踪:用于关键点检测的度量(扩展版)
提出了一种用于评估 SAE 实例性能的轻量级度量标准,并验证 SAE 实例的跟踪性能与其在下游强化学习中的表现的关系。从而实现在昂贵的强化学习训练之前对 RL 性能的评估,同时提出了改进 SAE 架构以提高跟踪性能的三个关键修改。
PDF
7 months ago
Prev
Next