高效且可解释的强化学习算法

Oct, 2023

Efficient and Interpretable Bandit Algorithms

Subhojyoti Mukherjee, Ruihao Zhu, Branislav Kveton

TL;DR在现代机器学习中，我们设计了一种既高效又可解释的强盗算法来解释模型的重要性。通过引入一种新的不确定性损失度量标准，我们量化了可解释性，并通过基于约束的最优设计提出了 CODE 算法，它是可解释的且能最大程度地减少不确定性。我们通过数值实验在合成和真实世界问题上证明了 CODE 算法的优越性。

Abstract

Motivated by the importance of explainability in modern machine learning, we design bandit algorithms that are \emph{efficient} and \emph{

explainability machine learning bandit algorithms interpretable uncertainty

发现论文，激发创造

可解释的序列优化的动态内存

本论文提出了一种基于自适应贝叶斯学习的代理学习算法来解决强化学习中不稳定情况下的记忆流失问题，并通过统计假设检验实现了可解释性，表现良好。

Jun, 2022

双重高维情境赌臂：联合组合定价的可解释模型

我们提出了一种基于上下文强化学习的联合组合和定价方法，该方法可以在零售业务中解决选品问题和定价问题，通过计算和真实案例研究证明了该方法的有效性。

Sep, 2023

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

混淆预算因果强化学习

我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题，其中 ' 好的 ' 干预是指最大化奖励的干预，在预定的预算限制下考虑非均匀成本的干预，我们提出了一种算法以在一般因果图中最小化累积遗憾，并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界，而实证评估结果表明，我们的算法优于现有技术。

Jan, 2024

优化置信区间上界算法：改进有限臂赌博机的遗憾

提出了一种基于 UCB 并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法，同时具有最优问题依赖性遗憾和最坏情况遗憾。

Jul, 2015

单模臂：遗憾下限和最优算法

研究了随机多臂老虎机问题，通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况，分别提出了 OSUB 和 UCB 算法，并得到了渐进的上下界和提高性能的实验结果。

May, 2014

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

贝叶斯激励兼容赌徒探索

研究说明在互联网经济和医疗决策等环境中，每个决策者对信息进行开采利用，并产生可能有助于未来决策的信息，社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡，从而最大化社会福利，文中提供了一个多臂赌博问题的激励兼容算法，其遗憾在所有多臂赌博算法中（不管是否具有激励兼容性）是渐进最优的。

Feb, 2015