- 上下文动态定价与综合估值模型中的极小化最优性
通过可观察的产品特征和顾客特征,提出一种新算法,通过离散化未知噪声分布和上限置信区间与分层数据分区技术的组合,有效地调节每个周期中的懊悔,从而控制与定价决策相关的懊悔,实现极小极大优化。
- 公平稳定的在线分配的主动学习
我们探索了一种用于动态公平资源分配问题的主动学习方法,该方法假设在在线资源分配过程的每个时期,仅从选择的代理人子集中获取反馈。尽管存在这种限制,我们提出的算法在包括资源分配问题中常用的公平度量和匹配机制中的稳定性考虑等各种度量中,提供了与时 - 一种基于风险敏感的时序性线性二次调节器的遗憾界限
在线自适应控制有限时域周期性设置下风险敏感线性二次调节器的回避范围研究及拟合泛化条件的简化最小二乘贪婪算法
- 具有最优臂兼容条件的套索赌徒
这篇论文研究了一种稀疏线性的随机赌博问题,其中只有稀疏的上下文特征子集影响预期的回报函数。作者提出了一个算法,借助强制抽样技术,在单参数设置下表现出 polylog 的 dT 遗憾,相较于 Lasso 赌博算法,该算法假设更弱且性能更好。
- 每轮只需 1 个投影的通用在线凸优化
通过黑匣子减少,我们使用简化域上定义的替代损失函数,构建了一种只需要进行一次投影的通用 OCO 算法,对于一轮在线问题,我们维护每种类型函数的一组专家,并通过元算法聚合他们的预测。我们的方法的关键在于针对强凸函数设计的专家损失函数,并通过创 - ICML平均奖励约束下有效的强化学习探索:通过后验抽样实现接近最优的遗憾
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
- 关于时间变化凸函数的二阶梯度下降的稳定性
该研究探讨了基于梯度的优化算法在机器学习应用中的收敛速度、遗憾界限等指标以及其与稳定性保证之间的关系,并提供了更为通用的稳定性保证,以促进实时学习应用的安全可靠部署。
- 公平的在线双边交易
在线双边贸易中,平台通过向具有私人估值的买家和卖家对发布价格来进行交易。该研究通过引入公平性来解决不平等的问题,并提出了对公平利益进行后悔边界的全面刻画。
- 多项式逻辑回归赌博机的几乎极小极大后悔
本论文研究了上下文多项式逻辑(MNL)弃权问题,其中学习代理根据上下文信息顺序选择一组,用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异,并且这些边界之间奖励结构的变化使得追求最优性变得复 - 激励兼容的赌博算法:不再依赖重要性加权
提出了一种优化算法解决自利代理人可能不真实声明其偏好的问题,并达到接近最佳后悔度的保证,尤其在信息完全与朴素赌博设置中表现出色。
- 超过最坏情况的无限多臂武装匪徒的腐烂问题:自适应方法
在本研究中,我们考虑了在腐败环境中的无限多臂赌博问题,其中每个臂的平均奖励可能会在每次拉动后减少,而其他情况下保持不变。我们探讨了两种场景,捕捉到关于奖励衰减的问题相关特征:一个情景中腐败的累积量受到 $V_T$ 的限制,称为缓慢衰败的场景 - ICLR线性马尔可夫决策过程的无界遗憾
近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合 MDP。我们给出了流行的线性 MDP - 睡眠赌徒的近最佳每个动作的遗憾界
我们使用广义版本的 EXP3、EXP3-IX 和 FTRL 与 Tsallis 熵直接最小化每次行动的遗憾,从而获得了接近最优的 $ O (√{TAlnK})$ 和 $ O (√{T√{AK}})$ 的界限,并将我们的结果推广到了从睡眠专 - 策略分类的学习差距
对比标准分类任务,战略分类涉及代理人在修改其特征以获得有利预测的过程中的策略性行为,重点关注战略分类与标准学习之间的可学习差距,并通过提供几乎紧密的样本复杂性和后悔界限来解释这一问题,同时引入两种自然的不确定性情况,以实现一定程度的放松的完 - AAAI带有异步通信和异构用户的联合上下文级联强化学习
研究了联合上下文组合级连续 Bandit 问题,考虑到异步通信模式下的异构用户行为,提出了一种 UCB 类型的算法,并通过理论分析在减少通信成本的同时获得了与同步框架相当的次线性后悔界限。经验评估验证了该算法在后悔和通信成本方面的优越性能。
- 部分可观察情境下的汤普森抽样
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
- 具备调解者反馈的赌博机信息容量遗憾界限
这项研究针对中介反馈问题,提出了一个信息论度量,称为策略集能力,用于衡量策略集的复杂性。研究在对抗性和随机性环境中采用了经典的 EXP4 算法,提供了与策略集能力相关的新后悔上界,并且改进了相关的专家建议问题。此外,针对线性赌博反馈,我们还 - 分散式在线凸优化的近优遗憾
我们在分散的在线凸优化中(D-OCO),通过仅使用本地计算和通信来最小化一系列全局损失函数的一组本地学习器。我们首先开发了一种新颖的 D-OCO 算法,将凸函数和强凸函数的遗憾边界分别降低到 O (nρ^{−1/4}√T) 和 O (nρ^ - 二阶方法在赌局优化和控制中的应用
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为 κ- 凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿 - 无投影在线凸优化与时变约束
在线凸优化中,考虑具有对抗性时变约束的情景,在这种情况下,行动必须相对于固定约束集是可行的,同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法,通过线性优化预言机(LOO)访问这个集合来保证在一个长度为 T 的序列上,通过总共 T