BriefGPT.xyz
大模型
Ask
alpha
关键词
sequential decision tasks
搜索结果 - 3
猜猜我在干什么”:将易读性扩展到序列决策任务
研究了不确定条件下顺序决策任务中可读性的概念。提出了一种名为 PoL-MDP 的方法,能够处理不确定性,同时具有计算上的可处理性,在多种模拟场景中证明了其在状态决策方面的优势,同时也表明该方法可以被用于反向强化学习。通过用户研究评估了该计算
→
PDF
2 years ago
强化学习代理策略理解与可视化框架
本研究提出了一个框架,用于学习顺序决策任务的可理解模型,通过时间逻辑公式表征代理策略,并使用一个嵌入方法对代理足迹进行聚类,得出在不同的聚类中解释代理策略的逻辑公式,通过编写一个特征提取器和一个可视化工具,对在 StarCraft II 中
→
PDF
2 years ago
强化学习领域的课程学习:框架与综述
本文提出了强化学习中的课程学习框架,并使用此框架对现有的课程学习方法进行分类和研究,以找出未解决的问题并提出未来研究的方向。
PDF
4 years ago
Prev
Next