BriefGPT.xyz
Ask
alpha
关键词
policy entropy regularization
搜索结果 - 1
通过熵率最小化实现可预测的强化学习动力学
提出一种名为可预测性感知强化学习 (Predictability-Aware RL,PA-RL) 的新方法,利用状态序列熵率作为可预测性度量,通过引入基于动作的替代熵来实现行为的可预测性,从而在人机互动场景的强化学习任务中产生更可预测的行为
→
PDF
7 months ago
Prev
Next