阈值套索强化学习算法
本文提出了一种算法来解决随机上下文赌博机问题,该问题中特征向量的维数可能很大,但仅有一个小的稀疏特征子集会影响奖励函数,该算法可以在不需要先前了解稀疏度的情况下使用,并在温和条件下,确立了性能方面的紧密后悔界限,同时,我们全面评估了我们提出的算法的性能,并表明即使将正确的稀疏度指数暴露给现有方法,但将其保持对我们算法隐藏,我们的算法也能始终优于现有方法。
Jul, 2020
本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法,通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息,达到降低通信成本、保证最小累计遗憾值的效果,并在合成和真实场景下验证了方法的有效性。
May, 2023
提出了一种新的算法:Doubly-Robust Lasso Bandit algorithm,它利用线性回归参数的稀疏结构,融合在缺失数据文献中使用的双重稳健技术,解决了高维稀疏环境下多臂赌博机算法的问题,大大减少了调参数量和算法复杂度。
Jul, 2019
这篇论文研究了一种稀疏线性的随机赌博问题,其中只有稀疏的上下文特征子集影响预期的回报函数。作者提出了一个算法,借助强制抽样技术,在单参数设置下表现出 polylog 的 dT 遗憾,相较于 Lasso 赌博算法,该算法假设更弱且性能更好。
Jun, 2024
研究高维稀疏特征的随机线性臂模型中,在数据匮乏的情况下,特征向量遵守固定的探测分布,通过探索然后提交算法,得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。
Nov, 2020
我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在 $S$ 未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间,并结合一种新颖的层级置信区间随机模型选择方法。当 $S$ 已知时,我们的分析恢复了对于对手动作集的最先进界限。我们还表明,我们的方法的一种变体,使用 Exp3 动态选择置信区间,可用于提高随机线性臂问题的实证性能,同时享受对于时间段的最优遗憾界限。
Jun, 2024
本文发展了一种数据稀疏 (稀疏线性斯托剖斯) 的新型算法,该算法使较小的环境维度下研究致命后果的风险得以降低,实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时,该研究还探讨了如何在一种 <黑盒> 化的方式下将任何方差算法转化为 sparce linear bandits 算法。
May, 2022
我们考虑高维度的随机情景线性赌博问题,在参数向量是 $s_{0}$- 稀疏的情况下,决策者受到差分隐私在中心模型和本地模型下的约束。我们提出了 PrivateLASSO,一种差分隐私的 LASSO 赌博算法,它基于两个子例程:(i) 基于稀疏硬阈值的隐私机制和 (ii) 用于识别参数 $ heta$ 支撑集的时序阈值规则。我们证明了最小化差分隐私的下界,并在标准假设下为 PrivateLASSO 在中心模型下建立了隐私和效用保证。
Feb, 2024