BriefGPT.xyz
Ask
alpha
关键词
responsible rl
搜索结果 - 1
带理由推断的优势演员 - 评论家算法:从探索性视角解释代理行为
本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR,通过预定义和分类行为的目的,A2CR 自动生成了更全面、可解释的决策模式,从而提供了一系列功能,如基于目的的关键性、早期故障检测和模型监督,以促进负责任和可信
→
PDF
10 months ago
Prev
Next