基于贝叶斯优化的因素化情境策略搜索
本文提出了一种用于评估和改进因果机器学习模型下上下文治疗分配决策的数据采集框架,采用贝叶斯实验设计用于数据高效率评估和改进过去治疗分配的遗憾。与 A / B 测试等方法相比,我们的方法通过引入基于信息的设计目标来避免分配已知高度次优的治疗方法,同时进行探索以收集相关信息。我们的方法适用于离散和连续治疗,与其他基线相比,模拟研究表明了我们提出的信息理论方法具有更好的性能。
Jul, 2022
本文介绍了一个基于敏感性分析的模型选择上下文优化算法(Sensitivity-Analysis-Driven Contextual BO),该算法可以在考虑环境上下文信息的同时最小化最优化成本,并在多个综合研究中表现出明显的改进。
May, 2023
本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法,该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性,并在真实世界数据集中展示了该方法的应用。
Jun, 2020
本文提出了一种基于代价感知的贝叶斯优化方法,旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战,实现在未知分布环境下的政策学习。在实验评估中,平均而言,所提出的算法在问题领域上的表现优于 MAML 元学习算法 19%,超参数调整方法 Hyperband 23%,BO 技术 EI 和 LCB 分别为 24%和 22%。
Oct, 2019
本文介绍了结合预测算法和优化技术来解决不确定性决策问题的上下文优化领域。文中关注单一和两阶段随机规划问题,识别了三种从数据中学习策略的主要框架,并讨论了它们的优点和局限性。
Jun, 2023
我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题,通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题,并通过线性规划的顺序求解来获得相容的因果模型,并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果,然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法,并对动作集大小和函数空间的影响进行了分析。与以往文献相比,我们的方法在函数逼近任务中可以处理一般的上下文分布,改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法,并实现了数量级更快的收敛速度。最后,我们进行了模拟实验,证明了我们的策略相对于当前最先进的方法的高效性,可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。
Aug, 2023
通过在仿真环境中使用基于高斯过程的先验知识,结合基于贝叶斯优化的策略搜索方法,提高在连续和离散控制环境中智能体行为的适应性,实验表明相比其他竞争基准,该方法的效果更好。
Feb, 2022
研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为 CAP 的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。
Mar, 2023
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018