BriefGPT.xyz
Ask
alpha
关键词
agent validation
搜索结果 - 1
ICML
通过反事实轨迹解释强化学习策略
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
PDF
2 years ago
Prev
Next