在线策略学习与矩阵补全的推理

Apr, 2024

Online Policy Learning and Inference by Matrix Completion

Congyuan Duan, Jingyang Li, Dong Xia

TL;DR基于矩阵完成赌徒问题 (MCB) 和在线梯度下降算法，探索碎状历史特征的在线决策问题。研究比较不同勘探概率和步长调度下的策略学习和后悔表现，同时研究基于反向反比加权 (IPW) 的去偏方法和在线策略推理的通用框架，通过实验验证理论结果，应用于旧金山停车定价项目数据，取得了引人注目的发现和超过基准策略的表现。

Abstract

Making online decisions can be challenging when features are sparse and orthogonal to historical ones, especially when the optimal policy is learned through collaborative filtering. We formulate the problem as a

online decisions matrix completion bandit collaborative filtering policy learning regret performance

发现论文，激发创造

上下文匹配赌博机环境下的在线决策统计推断

这篇论文研究在线决策问题，通过采用上下文乐队 it，并建立奖励模型来进行长期奖励最大化。使用估计模型参数的 OLS 和 WLS 方法来处理该问题，借助中心极限定理证明了参数的渐近正常性。同时，我们还通过实验验证了我们的结论。

Oct, 2020

未知协同收益游戏中无悔学习

本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW，通过运行 MW 方法获得最佳效果，同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。

Sep, 2019

在线低秩矩阵补全

本文研究在线低秩矩阵完成问题，提出了一个基于探索 - 利用策略及用户聚类技术的 OCTAL 方法，可以在多项臂赌博机问题的基础上获取 $ O ({m polylog} (M+N) T^{2/3})$ 的遗憾，并在 Rank-1 情况下得到 $O ({m polylog} (M+N) T^{1/2})$ 的近似率。

Sep, 2022

重要性加权的线下学习方法

离线策略优化，随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023

模仿正则化的离线学习

本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Jan, 2019

具低秩结构的离线强化学习矩阵估计

本文提出了一种离线策略评估算法，该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值，同时提供了一个离线策略优化算法，且具有非渐近性能保证。

May, 2023

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020

在线矩阵分解推荐的交替线性赌博机算法

本文提出了一种在线矩阵分解推荐算法，结合了线性赌博和交替最小二乘法，通过累积遗憾和平均累积 NDCG 评估算法性能，实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。

Oct, 2018

$ε$- 在线定价的策略梯度

该研究论文结合了基于模型和基于模型的强化学习方法，提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤，并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的利用成本，优化了所提出算法的遗憾。该算法在 T 次试验中达到了 O (√T)（乘以一个对数因子）的预期遗憾。

May, 2024

用于机会式频谱接入的分散式在线学习算法

本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题，提出去中心化多臂赌博问题，并设计出一种去中心化的在线学习策略，以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中，分别考虑了优先级排序和公平访问策略。

Apr, 2011