BriefGPT.xyz
大模型
Ask
alpha
关键词
exploration mechanisms
搜索结果 - 3
延迟几何折扣:强化学习的另一种准则
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
PDF
2 years ago
基于后继特征标志的长视程目标导向强化学习
本文介绍 Successor Feature Landmarks(SFL),它是用于大型、高维空间的探索的一个框架,该框架利用继承特征(SF)的能力来驱动探索,估计状态新颖性,并通过将状态空间抽象为基于非参数地标的图表,启用高级别规划,实现
→
PDF
3 years ago
ICML
在线有限内存神经线性赌博机及其似然匹配算法
本文研究神经线性赌博机,结合深度神经网络的表示能力和置信度估计机制,应用于线性环境赌博机中,通过匹配似然算法与去遗忘性相结合,取得了类似于无限存储方法的性能,而且对于遗忘性表现出了很强的韧性。
PDF
3 years ago
Prev
Next