一种用于选择强化学习智能体的赌博机框架

NIPSFeb, 2019

一种用于选择强化学习智能体的赌博机框架

A Bandit Framework for Optimal Selection of Reinforcement Learning Agents

Andreas Merentitis, Kashif Rasul, Roland Vollgraf, Abdul-Saboor Sheikh, Urs Bergmann

TL;DR本文提出一种基于多臂赌博机框架的深度强化学习方法，通过选择最适合特定应用的学习模型和增强学习代理，解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理，并且相较于其他策略在同样步数内获得更高的累计奖励值。

Abstract

deep reinforcement learning has been shown to be very successful in complex games, e.g. Atari or Go. These games have clearly defined rules, and hence allow simulation. In many practical applications, however, interactions with the environment are costly and a good simulator of the env

deep reinforcement learning multi-arm bandit inductive bias surrogate rewards sparse rewards

发现论文，激发创造

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

多臂赌博机策略对深度循环强化学习的影响

使用深度递归 Q - 网络和多臂赌博策略，研究自主驾驶情景中平衡探索和利用的方法，以及部分可观测系统中预测方向盘的影响。

Oct, 2023

奖励驱动的委托代理赌博游戏中的学习

这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Mar, 2024

基于偏好的 Dueling Bandits 在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

多臂赌博机简介

这篇论文介绍了多臂老虎机模型及其在不确定情况下做出决策的算法框架，在这一框架下，研究者们已经做出了大量的工作，本书提供了一种入门级的介绍，包括从基础模型到贝叶斯先验；从固定概率分布到可观测环境，通过与经济学的联系进行论述，使得读者可以更好地理解这个理论框架的应用。

Apr, 2019

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

多智体多臂赌博机公平算法

本文在经典赌博机问题的基础上提出了一个多智能体变种，旨在学会对赌臂进行公平分配并利用纳什社会福利来衡量它的公平性，设计了三个多智能体变种的算法并证明其实现了次线性的损失纳什社会福利，因此可以对合理的互惠性展现出更大的感受。

Jul, 2020

基于遗传多臂赌博机的通过仿真进行离散优化的强化学习方法

本文提出了一种新算法 GMAB，将强化学习领域的多臂赌博机和遗传算法中的随机搜索策略相结合，通过模拟来解决离散随机优化问题。实验结果表明，GMAB 在大量测试问题中取得了优越的性能。

Feb, 2023