关键词online sequential decision-making
搜索结果 - 4
- 在未观测到的异质性下进行具有专家示范的顺序决策
我们研究了在线顺序决策问题,给出了专家根据未观察到的上下文信息做出决策的辅助演示。我们将问题建模为一个具有未知任务分布和贝叶斯遗憾最小化目标的零样本元强化学习设置,其中未观察到的任务被编码为具有未知先验的参数。我们提出了 ExPerior - 具有未知延迟的在线顺序决策
在在线顺序决策的领域中,我们利用在线凸优化(OCO)框架解决带有延迟的问题,其中决策的反馈可能会有未知的延迟。我们提出了三类基于近似解的延迟算法,以处理不同类型的接收反馈。我们提出的算法多功能且适用于通用范数,在每种算法类型下给出了相应的遗 - 历史平均相关成本的在线决策
在许多在线顺序决策场景中,学习者的选择不仅影响当前的成本,还影响未来的成本。本文研究了一种特殊情况,其中成本依赖于过去决策的时间平均值,我们提出了一种新颖的算法 Follow-The-Adaptively-Regularized-Leade - 具有线性功能逼近的重尾奖励方差感知健壮增强学习
该论文提出了两个算法 - AdaOFUL 和 VARA,以解决在有限方差的重尾回报情况下的在线顺序决策问题。这些算法可以应用于线性随机赌博机和线性马尔可夫决策过程,并且新的算法优于之前的算法。其中 AdaOFUL 和算法 Huber 回归适