非稳态环境下具有昂贵特征的在线学习

Jul, 2023

非稳态环境下具有昂贵特征的在线学习

Online Learning with Costly Features in Non-stationary Environments

Saeed Ghoorchian, Evgenii Kortukov, Setareh Maghsudi

TL;DR在顺序决策问题中，我们扩展上下文奖励设置并允许智能体观察功能状态的子集，以同时最大化长期平均收益并在有限时间内保证减少。

Abstract

Maximizing long-term rewards is the primary goal in sequential decision-making problems. The majority of existing methods assume that side information is freely available, enabling the learning agent to observe all features' states before making a decision. In real-world problems, however, collecting beneficial information is often costly. That implies that,

sequential decision-making side information contextual bandit non-stationary environment regret

发现论文，激发创造

高斯回报与侧面观测的在线学习

本文考虑了一个带有高斯回报和信息反馈的序贯学习问题，并提供了非渐近的问题相关下界和算法来实现这些下界。

Oct, 2015

非平稳时延组合半赌博问题与因果相关奖励

在不稳定环境中进行的顺序决策和反馈延迟引起的问题，通过学习因果关系来减轻决策过程中的不利影响，本文将此问题形式化为具有因果关联奖励的非平稳和延迟组合半强盗问题，并通过数值分析在意大利使用合成和真实世界数据集来检测对 Covid-19 传播最重要的地区。

Jul, 2023

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

具有中间观测的非平稳延迟赌博机

介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下，如何利用中间信号解决长期行为稳定性问题的计算机算法，并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。

Jun, 2020

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

非稳态环境下的强化学习

本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

May, 2019

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

混淆预算因果强化学习

我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题，其中 ' 好的 ' 干预是指最大化奖励的干预，在预定的预算限制下考虑非均匀成本的干预，我们提出了一种算法以在一般因果图中最小化累积遗憾，并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界，而实证评估结果表明，我们的算法优于现有技术。

Jan, 2024

基于合作上下文臂银行算法的分布式在线学习

本文提出了一种新的分布式在线学习框架，将学习者建模为合作的情境赌博机，分析了分布式在线学习算法和完全知识基准的效率，研究表明后者在时间上失误是亚线性的，该理论框架可用于许多实际应用中，包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。

Aug, 2013