关键词exploration-exploitation tradeoff
搜索结果 - 12
- 基于贝叶斯激励相容性的双边市场动态在线推荐
推荐系统在互联网经济中起着至关重要的作用,本论文提出了一种 Dynamic Bayesian Incentive-Compatible Recommendation Protocol (DBICRP) 来解决有效设计推荐系统所面临的挑战,同 - 自适应探索的近端策略优化
探讨了在强化学习环境下的探索与利用权衡,提出了自适应探索的近端策略优化算法(axPPO),该方法通过根据智能体的最近表现动态调整探索幅度,提高了学习效率,特别是在学习过程开始阶段需要大量探索性行为时。
- 进化计算中基于深度强化学习的自动配置探索 - 开发平衡
基于深度强化学习的框架可自动配置和调整探索 - 利用平衡 (EET),以提升进化计算算法的性能和泛化能力。通过在 CEC2021 基准上进行实验证明,在多个问题类别、维度和种群规模上,该框架显著改善了现有算法的性能,并提供了对 EET 问题 - 在线 MNL 选择下的联合搭配与库存优化
本文研究一种在线联合分类 - 库存优化问题,提出一种算法以在探索与利用之间找到平衡点,并进行数值实验以验证算法的有效性。
- 安全覆盖控制的近似最优多智能体学习
本论文提出了一种条件线性子模覆盖函数,用于多智能体覆盖控制问题中的密度学习和保证智能体的安全性,并开发了 MacOpt 和 SafeMac 算法来解决部分可观察性导致的勘探 - 开发困境,以及多智能体带安全探索的覆盖问题,实证研究表明 Sa - 批次神经赌博机
本文研究了一类常见的序贯决策问题 —— 批处理问题,提出了一种结合神经网络和乐观性的算法 BatchNeuralUCB,用于解决探索利用平衡及限制批数量的问题,并在理论上证明了其有效性,在合成和真实数据集上进行了验证。
- KDD朝向深度监督异常检测:从部分标记异常数据中强化学习
该论文提出了一个基于深度强化学习的方法来解决在只有有限的异常样本和大量无标注数据集的情况下进行异常检测的问题,该方法在自动交互式模拟环境中学习已知异常,并通过探索从而将学习到的异常扩展到未知异常,最终取得了比五种已有方法更好的实验效果。
- ICLR强化学习与概率推断的理解
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最 - ICML探索感知强化学习再探
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
- ICML机会主义赌博机的自适应勘探和开发平衡
提出了一种新型武器 - 机会主义强盗,研究了不同环境条件下拉取次优武器的损失,提出了一种自适应上置信界算法(AdaUCB)来平衡开采 - 探索的权衡,证明了 AdaUCB 的性能优于传统算法,并在合成数据和真实世界的实验结果中得到了验证。
- 具有凹奖励和凸背包的赌博机
在这篇论文中,我们提出了一种广义的勘探 - 开发权衡模型,该模型允许在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。我们证明了一种用于 MAB 的 UCB 系列算法自然而简单的扩展,提供了一个具有近乎最优的后悔保证的多项式 - ICML多臂赌博机中的探索与利用分离
研究了多臂赌博问题中的探索和利用问题,并提出了一种基于非均匀采样策略的算法,用于解决带有分段稳定随机赌博问题的情况,并实现了对于超宽带通道选择的模拟测试。