关键词exploration-exploitation
搜索结果 - 11
- ICML基于表示的强化学习
提出了一个基于表示的强化学习框架,使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络,将勘探利用问题转化为表示利用问题,这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法,本框架比传统方法具有显著提高 - 贝叶斯优化中探索 - 利用权衡的掌握
通过融合算法和人类搜索策略的关键成果和见解,该论文提出了一种新的获得函数,掌握探索和开发之间的权衡,可以自适应地选择下一个解决方案,表现出卓越的性能
- AAAI基于模型的强化学习与多项式逻辑函数逼近
通过上界置信度算法,为状态转换由多项式逻辑模型给出的 MDP 建立可证明的高效强化学习算法,其信息瓶颈受到未知转换核的限制。实验表明该算法在实践中具有卓越的性能表现.
- 广义数据分布迭代
研究同时实现高样本效率和卓越绩效的深度强化学习模型,将挑战分解为两个经典强化学习问题,数据丰富性和探索 - 开发权衡,并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来 - KDD深度点击率预测的对抗梯度驱动探索
本研究提出了一种名为 Adversarial Gradient Driven Exploration(AGE)的基于探索 - 开发策略的更新算法,该算法考虑了探索策略对模型训练的影响,并引入了动态门控单元来防止资源浪费。该算法在学术数据集和 - KDD基于置信上界的关系型赌博机知识注入策略梯度
本文提出了一种将知识注入到策略梯度上限边界算法中的上下文策略选择方法,并在音乐推荐数据集和各种现实生活数据集上进行了实验分析,结果表明专家知识能够极大地减少总遗憾。
- AAAI多智能体学习中的勘探与开发:灾变理论与博弈论相遇
研究了多智能体学习中的探索 - 利用问题,并在 Q-learning 模型中证明了其在博弈中拥有良好的理论基础,同时研究了探索对多智能体系统性能的影响,并提供了调整探索参数以实现平衡选择的正反面效果的正式理论处理。
- 使用经验伯恩斯坦不等式对 UCRL2 算法进行改进分析
分析了应用 Empirical Bernstein 不等式的 UCRL2 算法在探索和开发问题上的应用,结果表明在通信 Markov 决策过程中,UCRL2B 算法的损失被限制在 $\widetilde {O}(\sqrt {D\Gamma - 非通信马尔可夫决策过程中的近最优探索利用
该论文介绍了一种新算法 TUCRL,它能够在任何有限马尔可夫决策过程 (MDP) 中进行高效的勘探和利用,而不需要任何形式的先前知识。该算法不同于乐观算法和正则算法,以及后验抽样或分段算法在弱通信 MDP 中的低效表现。最后,数值模拟支持了 - ICML在线集群化的赌博机
介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
- 通过后验抽样学习优化
本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。