- 连续状态空间中的显式探索 - 利用算法
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们 - ICLRVariBAD:基于元学习的 Bayes - 自适应深度强化学习的非常好方法
本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD),用于在未知环境中进行结构化在线探索,通过直接考虑任务不确定性进行动作选择,在 MuJoCo 领域的实验证明,相较于现有方法,variBAD 能够获得更 - 上下文臂选择模型
介绍了在上下文密集应用中的模型选择问题及其解决方案,该方案适用于线性上下文密集应用,并在先验知识下达到了较低的后验概率。
- AAAI生成式探索与利用
本文提出了一种新方法 Generative Exploration and Exploitation(GENE),通过自动生成初始状态鼓励代理探索环境并利用接收到的奖励信号,可以自适应地在探索和利用之间进行权衡并与任何强化学习算法结合使用, - 模型不确定性下的稳健自适应规划
本文提出一种名为 Robust Adaptive Monte Carlo Planning (RAMCP) 的算法,用于计算风险敏感的 Bayes-adaptive 策略,旨在在探索、利用和鲁棒性之间进行最优权衡,可应用于决策和学习等领域中 - 强化学习中的探索与利用:一种随机控制方法
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解 - NIPS利用隐空间动态模型的信息最大化探索
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个 - 线性上下文贪婪算法问题的平滑分析
本文研究线性情境赌徒算法问题,重新审视贪心算法的性能,通过平滑分析证明,即使情境可以由对手选择,对对手选择进行小干扰就足以实现 “无悔算法”,这表明在线性设置中,“普遍地”(即在稍微扰动的环境中)探索和开发不必在冲突。
- Rowhammer 防御墙又倒下一砖
研究提出了新的 Rowhammer 攻击技术和利用原语,介绍了一种称为 opcode flipping 的新开发技术,绕过了最近的隔离机制,该攻击技术可以用来进行云中的协同拒绝服务攻击和个人计算机的特权升级,其攻击能够逃避所有先前针对商品系 - 腐败赌徒
本文探讨了多臂老虎机框架及其中的经典框架问题,引出了老化多臂老虎机框架,探讨了在该框架下的算法及理论保证,并提出了其在实际应用当中的意义。
- 信息搜索中的风险与歧义:眼动模式揭示应对不确定性的情境行为
本研究通过眼动实验探究在生物医学领域中,专家与新颖搜索界面的交互中,感知风险会如何影响用户的信息搜索策略及风险与模糊性之间的平衡关系,进而将信息搜索与量子决策理论联系了起来。
- 探索然后执行策略
研究用高斯奖励两臂赌博问题中最小化后悔的方法。发现基于探索阶段(直到停止时间)和利用阶段的策略必然是次优的,同时提供了一种成本和时间都是优的全序列策略。
- 非静态奖励多臂老虎机问题中的最优探索利用
本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博,提出了一种正式的处理方法,并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。
- 信息引导采样的优化学习
该研究提出了一种新的信息导向采样的方法,它适用于在线优化问题,通过学习部分反馈,决策者需要在探索和利用之间取得平衡。
- 基于置信区间和不安定多臂赌博模型的感知策略
在认知无线电中,提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略,其中频带的索引由一个样本均值项和一个置信项组成,使得子优频段之间连续感知的时间间隔成指数增长,导致弱后悔值对数增长。仿真结果表明, - NIPS使用基于样本的搜索实现高效的贝叶斯自适应强化学习
本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法,它避免了在搜索树中昂贵的应用贝叶斯规则,通过从当前信念中懒惰地抽样模型。实验证明,与以前的贝叶斯模型为基础的 - NIPS高斯系统的最优强化学习
本文研究了对于强化学习中的探索与利用之间的权衡,如果所有信念都是高斯过程,那么关于最优学习的解析陈述有多大程度的可能性。给出了非线性、时变系统在连续时间和空间中的损失和动态学习的一阶近似,受到动态学中相对较弱的限制,并描述了近似有限维投影如 - 昂贵代价函数的贝叶斯优化教程,及其在主动用户建模和分层强化学习中的应用
本论文介绍了贝叶斯优化的基本概念,以及该方法在优化高代价函数时的应用。此外,本文还介绍了两个扩展应用领域,并对该方法的优点和缺点进行了讨论。
- 强化学习:一项调查
本论文从计算机科学的角度调查了强化学习领域,包括历史、现状和实践应用等方面,并重点探讨了强化学习中的中心问题,如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。