选择计算：理论和应用

Jul, 2012

Selecting Computations: Theory and Applications

Nicholas Hay, Stuart Russell, David Tolpin, Solomon Eyal Shimony

TL;DR本文提出了基于贝叶斯选择问题的概率框架中的元层决策，推导出在蒙特卡罗搜索中最优策略的有限采样界，并在一次性决策问题和 Go 中展示了比基于贝叶斯算法和基于赌博算法的启发式方法更优越的启发式近似。

Abstract

sequential decision problems are often approximately solvable by simulating possible future action sequences. {\em Metalevel} decision procedures have been developed for selecting {\em which} action sequences to simulate, based on estimating the expected improvement in decision quality

sequential decision problems metalevel decision procedures bayesian selection problems monte carlo tree search go

发现论文，激发创造

贝叶斯数据选择

将数据选择作为决策问题，并通过导出相应的贝叶斯准则为半监督学习中的自我训练等问题提供了贝叶斯最优选择数据的方法。根据模拟和真实数据的实证评估，我们进一步展示了该准则在广义线性模型、半参数广义加性模型和贝叶斯神经网络上减轻了确认偏差的问题。

Jun, 2024

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

基于数据驱动的悔恨平衡在线模型选择策略

研究随机环境下序列决策中模型选择的效用，并利用数据驱动方法得到候选后悔保证未知的基本学习方法，通过后悔平衡实现模型选择保证。

Jun, 2023

情境随机赌博问题中的模型选择

研究如何在随机环境中进行赌徒模型选择，提出一种基于元算法的方法，可以与一般类别的基本算法和不同类型的对抗性元算法一起使用，同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。

Mar, 2020

基于蒙特卡罗树搜索和价值函数的离散分布近似推断

利用强化学习中的蒙特卡罗树搜索（Monte Carlo Tree Search）算法对概率模型的近似推理进行建模，提出了基于 “最佳先行探索” 的启发式方法来动态分配函数调用，并展示了该方法的效果优于标准的近似推理方法。

Oct, 2019

算法选择作为带无限损失的赌博机问题

本文提出一种将算法选择表示为部分信息的赌博问题的简单框架，并将现有的求解器适应于该游戏，证明了其期望遗憾的边界，该算法选择技术的也适用于此。

Jul, 2008

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

模拟器上的多样化，Top-k 和 Top-Quality 规划

使用蒙特卡洛树搜索方法来解决无法使用经典规划器解决的问题，并在路径规划问题中演示了该方法可以生成多样化和高质量的计划集合。

Aug, 2023

分层贝叶斯赌博机

该论文提出了一种基于分层贝叶斯赌博机的自然分层 Thompson 采样算法（HierTS），可有效解决元学习、多任务学习、联邦学习等类似问题，并通过实验展示了分层结构有助于任务间的知识共享。

Nov, 2021

可扩展的离散抽样问题视为多臂赌博机问题

研究了在大规模贝叶斯推理和图形模型中出现的高度依赖性离散随机变量抽样问题，结合多臂赌博问题提出了一种有效的近似解决方案，通过实验评估证明了在合成和实际大规模问题中的高效性。

Jun, 2015