- 部分可观测马尔可夫决策过程中纯探索策略的局限性:观测信息熵的足够性
在部分可观测性问题中,本文研究了将状态熵最大化的简单方法,并提供了对真实状态熵的逼近的上下界,以及如何利用观测函数的特性来计算观测熵的合理化的方法,从而提高性能和对 POMDP 环境下状态熵最大化的进展进行了理论性的描述。
- 无性能损失的批量顺序减半算法
本文研究了多臂赌博机中纯探索问题,特别关注批处理中的臂拉取情况。我们引入了一个简单的批处理版本的顺序减半算法,并从理论上证明在实际条件下批处理不会降低原算法的性能。此外,通过实验证明了顺序减半算法在固定批处理设置下的稳健性。
- 具有嘈杂歧义回答的高效查询相关聚类
我们研究了一个通用的聚类环境,其中我们有 $n$ 个要聚类的元素,并且我们的目标是尽量少地通过一个返回两个元素之间相似度的有噪声样本的预言进行查询。我们提出了在组合多臂赌博机的纯探索范式中根源于在线学习问题的两种新颖公式:固定置信度和固定预 - 批处理多臂赌博机问题中的最佳臂识别
最近在许多实际场景中出现了多臂赌博问题,其中由于代理人等待反馈的时间有限,必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时,问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线 - 双线性强盗问题中的纯探索多任务表示学习
在本研究中,我们研究了在双线性赌博机中进行纯探索问题的多任务表示学习。我们提出了一种名为 GOBLIN 的算法,利用实验设计方法来优化学习全局表示的样本分配,并最小化在个体任务中识别最佳臂对所需的样本数量。据我们所知,这是第一项对具有共享表 - 最佳选择躲避:关于多臂老虎机的纯探索的近最优多遍流式下限
纯探索、多臂赌博机、多次传递流算法、样本通过折衷、奖励差距
- 关于插值专家和多臂赌博机的研究
研究一种插值两种不同信息观察方式的在线决策问题,称为 $\mathbf {m}$-MAB。施加 $\mathbf {m}$-MAB 的紧凑极小后悔界,并为其纯探索版本 $\mathbf {m}$-BAI 设计了最佳 PAC 算法。本文还将 - 无限臂老虎机渐进最优纯探索
本文研究了纯探索问题中具有无限多臂的赌博机问题,针对固定置信和固定预算两种情形,提出了两种算法,分别以最小的期望和固定样本复杂度为目标,最终准确选择一个高质量臂,使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$,并给出了理论证 - 一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法
提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义,适用于动作和状态熵的任意混合,其中,动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。
- 因果赌博机的组合式纯探索
通过纯探索算法和可适应性算法的结合,在二元广义线性模型和一般图上提出了一种基于关键因果图的因果带博弈问题计算方法。该方法通过最小化采用次数来最大化干预奖励,从而实现了对干预的精确优化。
- 核和神经赌博中的纯探索
本文研究了一种新的纯探索选择策略,通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误,成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。
- 改进线性逻辑模型的置信区间界限及在线性赌博机中的应用
本文中,我们基于对 logistic 损失的自共轭分析提出了改进的固定设计置信区间用于线性 logistic 模型,避免了对所有臂奖励分布的最小方差 $\kappa$ 的直接依赖。我们提供了两个应用程序,以及一个下界,证明了性能保证的最新进 - ICML线性赌博机探索的游戏化
研究了线性随机机器人中的最佳臂标识,在标准多胳臂机器人中存在渐近最优算法,但是对于线性机器人中的最佳臂识别还没有出现这样的算法,本文提出了一种渐近最优算法。
- 通过解游戏进行非渐近纯探索
本文提出了一种适用于纯探索问题和赌博机结构的不需完全解决优化问题的优化算法,并获得了对指数族的适应性和有限信心保证。
- 线性赌臂机中纯探索的完全自适应算法
本文提出了第一个完全自适应的算法用于求解线性赌博机中的最优选择问题,并且其采样复杂度与已有算法相当。此外,通过模拟实验表明,在合成和真实数据集上均远优于现有的方法。
- Maximin Action Identification:一种新的用于游戏的 Bandit 框架
在 Monte Carlo Tree Search 的启发下,我们研究了一个原始的纯探索问题,其中玩家可以对连续选择的动作对的随机结果进行采样,提出了 Maximin-LUCB 和 Maximin-Racing 两种寻找最佳动作的策略,并讨