序贯决策和广义博弈的赌徒线性优化

AAAIMar, 2021

序贯决策和广义博弈的赌徒线性优化

Bandit Linear Optimization for Sequential Decision Making and Extensive-Form Games

Gabriele Farina, Robin Schmucker, Tuomas Sandholm

TL;DR报告描述了如何设计面向 TFSDM 的探索 - 利用算法以解决困难的在线决策问题

Abstract

tree-form sequential decision making (TFSDM) extends classical one-shot decision making by modeling tree-form interactions between an agent and a potentially adversarial environment. It captures the online decision-making problems that each player faces in an extensive-form game, as we

tree-form sequential decision making markov decision processes bandit linear optimization problem online optimization mirror descent

发现论文，激发创造

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

顺序信息设计：在暗中学习说服

研究了在信息设计问题中，如何让一个自利的决策人在面对连续决策时遵循某些规则，并提出了相应的学习算法，该算法可以保证提示者和接收者在不同条件下的回报。

Sep, 2022

在线一位反馈随机线性优化

本文研究在线随机线性优化的特殊赌徒环境，其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量，并旨在最小化未知线性函数定义的遗憾。为了解决此挑战，我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。

Sep, 2015

基于多线性 DR - 次模极大化的 Bandit 算法及其在对抗性次模 Bandit 中的应用

研究在线赌徒学习中的单调多线性 DR - 子模函数设计算法 BanditMLSM，可以获得（1-1/e）遗憾的 O（T ^ {2/3} log T）；将子模随机带入分割拟阵约束和赌徒顺序单调最大化，可以在两个问题中获得 O（T ^ {2/3} log T）的（1-1 /e）遗憾，这比现有结果更好。给出第一个关于具有分割拟阵约束的子模赌徒的次线性遗憾算法。

May, 2023

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

基于赌博机的马尔可夫决策过程在线性流中的序列决策建模

本文提出了一种基于 MDP 与 Bandits 的 Thompson 采样算法及其在推荐场景中的应用，旨在解决线性流程中的循环决策问题，该算法在模拟实验中表现出色，特别是在跨页相互依赖变化大的情况下，表现最为鲁棒。

Jul, 2021

关于连续时间在线学习的一点备注

连续时间模型中，我们提出了在线学习问题的连续时间算法，并给出了最优遗憾界的简明证明。

May, 2024

单调随机优化的半强盗学习

通过提供一种具有与最佳近似算法（在已知分布下）相对于平方根的 T 乘以 log T 束缚的通用在线学习算法，在半探测器环境中解决了在一大类 “单调” 随机问题中对于未知分布是否能够获得良好（近似）算法进行学习的问题。我们的框架适用于随机优化的若干基本问题，如先知不等式、潘多拉盒、随机背包、随机匹配和随机次模优化。

Dec, 2023

组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中，通过分离延迟反馈成本和赌博反馈成本，得出了在三种不同的情况下的新结果，包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权值的线性赌博。我们的新型遗憾分解显示 FTRL 在正则化程序的 Hessian 矩阵上的温和假设下，可在多轮中保持稳定，并为线性赌徒提供了一种有效算法和接近最优的遗憾限制。

May, 2023