BriefGPT.xyz
大模型
Ask
alpha
关键词
q-value functions
搜索结果 - 4
抓住意外收获:利用往期成功价值进行非同策略演员 - 评论家算法
提出了混合利用和探索算法(BEE)来解决强化学习后期出现的低估 Q 值问题,具有较高的样本效率和实用性。
PDF
a year ago
AAAI
需要一些监管:通过认知不确定性指标在强化学习中融入 Oracle 政策
本文提出并应用一种度量 Q - 值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法 F - 值。我们在 Deep Q-Networks (DQN) 中实验性地应用其来表明在强化学习中的不确定性估计是学习进
→
PDF
2 years ago
马尔可夫决策过程之外的极限状态聚合
研究了强化学习中的状态聚合及特征学习,通过提出基于聚合过程的马尔科夫决策过程,推广了现有的聚合结果,解决了强化学习中状态空间大小的上限问题。
PDF
10 years ago
分散式 POMDP 的最优和近似 Q 值函数
本文研究决策理论规划在单智能体和分布式 POMDP 模型中的应用,提出了一种可行的计算方法并对其算法进行了评估。
PDF
13 years ago
Prev
Next