bayesian regret | BriefGPT - AI 论文速递

关键词bayesian regret

搜索结果 - 12

在线强盗学习伴随离线偏好数据
采用有限臂线性赌博机模型作为在线学习的典型模型，通过建模生成数据的专家的能力，我们提出 warmPref-PS 算法，利用带有噪声偏好反馈的离线数据集实现在线学习，并在理论和实证评估中得到支持。
PDF23 days ago
线性强化学习问题的信息论界限和紧凑遗憾率
该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上，通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证，我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下，我们的界限为 d
PDF4 months ago
基于信息论的噪声上下文随机赌博机的汤普森抽样算法的遗憾分析
我们研究了一种随机情境线性赌博机问题，代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略，可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策
PDF6 months ago
利用后验抽样开发因果图先验的强化学习
我们提出了一种新的后验抽样方法，其中先验以环境变量之间的（部分）因果图形式给出，该方法称为 C-PSRL，在同时学习更高层次的完整因果图和更低层次的分解动力学参数时，明确了其贝叶斯遗失与先验知识的程度之间的关系。我们在说明性领域进行的数值评
PDF9 months ago
离线赌博机中基于贝叶斯遗憾最小化的凸松弛方法
本文提出了一种利用高效对偶锥优化器，直接最小化贝叶斯遗憾的上界以及与 VaR 和机遇约束优化之间的关系建立的边界的新方法来优化不确定环境下离线数据的决策问题，并与现有算法进行了比较。
PDFa year ago
镜像下降和信息比率
本论文研究了镜像下降法和信息比率之间的关系，探讨了在采样信息导向时，采用合适的损失估计器和探索分布的镜像下降法和信息导向采样的贝叶斯后验遗憾上限呈现相同的下降趋势，并且本文还提供了一种有效的算法用于敌对赌博问题中，该算法的遗憾上限与信息理论
PDF4 years ago
分布稳健的贝叶斯积分优化
本研究针对具有分布不确定性的贝叶斯积分优化问题使用分布鲁棒优化视角，提出了一种基于后验抽样的算法（DRBQO），旨在最大化最对抗分布下的预期目标，并通过贝叶斯遗憾度量其理论收敛性。我们在合成和真实世界问题中展示了我们提出的框架的实证有效性。
PDF4 years ago
Thompson 采样在逻辑回归老虎机问题中的表现
本研究对 Logistic Bandit 问题进行了研究，确立了 Thompson sampling 算法的鲁棒性，提出了新的度量指标 —— 脆弱性维度，并使用该指标证明了现有算法的上限。
PDF5 years ago
基于信息论的部分监控极小后悔策略
本研究证明了一个新的 minimax 定理，将贝叶斯最坏情况遗憾和没有对手信号或决策的 minimax 遗憾联系起来。进而推广 Russo 和 Van Roy (2016) 的信息论工具，证明了多种部分监视设置的 minimax 遗憾边界。
PDF5 years ago
基于 Thompson Sampling 的未知线性系统学习控制
引入 Thompson 采样算法应对 LQ 控制问题的未知系统参数，该算法被称为具有动态阶段的 Thompson 采样（TSDE），其中包括两种停止准则来确定动态阶段的长度并呈现出具有 O (sqrt (T)) 的期望后悔值的性质，加入重启
PDF7 years ago
带图反馈的随机赌博机的汤普森抽样
本研究介绍了一种新的 Thimpson Sampling 算法扩展，应用于带图反馈的随机顺序决策问题，甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果，可以说明该算法的性能优于使用上界置信度的相
PDF7 years ago
Thompson 抽样的无先验和有先验依赖的遗憾界
研究具有奖励分布先验分布的随机多臂赌博问题，证明 Thompson Sampling 算法在没有先验分布时具有最优的贝叶斯遗憾上界，并在 Bubeck 等人的先验设置下证明了算法的一致界限，并与 Audibert 和 Bubeck [200
PDF11 years ago