关键词information-directed sampling
搜索结果 - 9
- 多智能体强化学习的可证明高效信息导向采样算法
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。
- 乐观信息导向抽样
我们提出了一种新的分析框架,将俄罗斯和范・罗伊(2018 年)的信息导向抽样的贝叶斯理论与 Foster 等人(2021 年)的最坏情况理论基于决策估计系数相结合,通过我们的算法模板 Optimistic Information-Direc - 模型基强化学习中的 Stein 信息导向探索
本研究提出了一种基于转移模型的新型探索激励方法 STEERING,并通过内核化 Stein 差异度(KSD)计算与优化未知最优模型之间的积分概率度量(IPM),获得亚线性贝叶斯遗憾,比当前基于信息增益的模型强化学习算法表现更优。
- ICML上下文信息导向采样
探讨了在具有上下文信息的情况下,信息导向采样 (IDS) 设计的优化方式,并通过上下文赌博问题的两个案例证明了上下文 IDS 的优势,特别强调了考虑上下文分布的重要性。进一步提出了基于演员 - 评论家算法的计算有效版本的上下文 IDS,并在 - 稀疏线性赌博机的信息引导采样
本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界,在计算上能够高效地实现稀疏 IDS,通过数值实验表明相对于几个基线算法,稀疏 IDS 有明显的遗憾减少。
- 镜像下降和信息比率
本论文研究了镜像下降法和信息比率之间的关系,探讨了在采样信息导向时,采用合适的损失估计器和探索分布的镜像下降法和信息导向采样的贝叶斯后验遗憾上限呈现相同的下降趋势,并且本文还提供了一种有效的算法用于敌对赌博问题中,该算法的遗憾上限与信息理论 - ICLR超模型用于探索
研究使用超模型来表示认知不确定性并指导探索,通过神经网络模型的线性超模型得出,可以更加准确地近似 Thompson 采样,并使用更复杂的探索策略。
- 深度强化学习的信息导向探索
本文提出了一种基于信息导向采样的探索策略,结合分布式强化学习的方法,应对异方差性观测噪声与参数不确定性的挑战,并在 Atari 游戏中展示出比传统策略显著的改进。
- 信息引导采样的优化学习
该研究提出了一种新的信息导向采样的方法,它适用于在线优化问题,通过学习部分反馈,决策者需要在探索和利用之间取得平衡。