探索 / 开发策略的元学习：多臂赌博机案例

Jul, 2012

探索 / 开发策略的元学习：多臂赌博机案例

Meta-Learning of Exploration/Exploitation Strategies: The Multi-Armed Bandit Case

Francis Maes, Damien Ernst, Louis Wehenkel

TL;DR本研究提出了一种基于元学习方法的新的解决方案，可以在一个特定的 E/E 问题类别上利用先前的知识，从而找到一个平均表现最佳的候选 E/E 策略。此方法在两种不同的假设空间中都取得较好的实验结果和鲁棒性评估。

Abstract

The exploration/exploitation (E/E) dilemma arises naturally in many subfields of Science. multi-armed bandit problems formalize this dilemma in its canonical form. Most current research in this field focuses on generic solutions that can be applied to a wide range of problems. However,

exploration/exploitation dilemma multi-armed bandit problems prior knowledge meta-learning approach e/e strategies

发现论文，激发创造

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

高效勘探 - 开发策略的近似信息

本文提出了一种新方法，“近似信息最大化（AIM）”，通过使用熵梯度的解析逼近来选择每个时刻要拉哪个臂，从而解决了决策中固有的勘探 - 利用困境，实现了与 Infomax 和 Thompson 抽样相当的性能，同时提高了计算速度，确定性和易处理性。

Jul, 2023

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

多臂赌博机策略对深度循环强化学习的影响

使用深度递归 Q - 网络和多臂赌博策略，研究自主驾驶情景中平衡探索和利用的方法，以及部分可观测系统中预测方向盘的影响。

Oct, 2023

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

EE-Net: 上下文 Bandit 中的开发 - 探索神经网络

本文提出了一种新颖的神经探索策略，在上下文赌博中提高了标准基于 UCB 和 TS 方法的表现，该策略通过使用神经网络来学习潜在奖励函数，并使用另一个神经网络来自适应地学习探索潜在收益，通过决策者来将这两个网络的结果结合起来，实现了更好的表现。

Oct, 2021