非平稳环境中的计算卸载在线算法

MMJun, 2020

非平稳环境中的计算卸载在线算法

An Online Algorithm for Computation Offloading in Non-Stationary Environments

Aniq Ur Rahman, Gourab Ghatak, Antonio De Domenico

TL;DR本文提出一种基于乐观性策略的在线学习算法，用于解决任务卸载场景下的多臂老虎机问题，以实现最小化端到端延迟。研究结果表明，在动态环境中，严重贬低过去的奖励的重要性。该算法表现优于现有算法，优化效果高达约 1 秒。

Abstract

We consider the latency minimization problem in a task-offloading scenario, where multiple servers are available to the user equipment for outsourcing computational tasks. To account for the temporally dynamic na

latency minimization task-offloading wireless links multi-armed bandit online learning algorithm

发现论文，激发创造

参数化量子比特态的量子纠缠检测的经典贪婪算法

量子纠缠检测中的多臂赌博机问题探索与机器学习方法应用潜力的研究。

Jun, 2024

利用规范化权重函数改进多臂赌博机的奖励条件策略

通过使用归一化权重函数来通过边缘化奖励构建策略的技术，改进了 reward-conditioned policies 并使其在具有大动作空间和稀疏奖励信号的挑战性多臂赌博问题上表现出优越性能。

Jun, 2024

完全无约束的在线学习

我们提供了一种在线学习算法，可以在不知道 G 或∥w∗∥的情况下，获得在 G-Lipschitz 凸损失函数上的遗憾 G∥w∗∥√(Tlog (∥w∗∥G√T)+∥w∗∥^2+G^2)，这与具有此类知识的最佳界限 G∥w∗∥√T 匹配（除了对数因子），除非∥w∗∥或 G 太大，以至于即使 G∥w∗∥√T 在 T 中也大致线性。因此，在可以实现次线性遗憾的所有场景中，它匹配了最佳界限，这可以说是最 “有趣” 的情况。

May, 2024

具有网络干扰的多臂赌博机

通过研究在线干预实验中的干扰问题，我们提出了基于线性回归算法的多臂赌博机策略，以最小化后悔并实现低后悔的任务分配。

May, 2024

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

具有多功能奖励模型的成本效益的在线多 LLM 选择

利用 “C2MAB-V” 实现对多个大型语言模型的选择和使用，实现了性能和成本效益的平衡。

May, 2024

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

我们考虑用于赌博机和表格马尔可夫决策过程（MDP）的（随机）softmax 策略梯度（PG）方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛，而不需要设置算法参数。为了解决这个问题，我们借鉴了优化文献的思路，在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。

May, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的 LLM 提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。

Mar, 2024

实例最优在线学习的 SMART 方法

我们提出了一种在线学习算法 —— 通过单调适应性遗憾追踪（SMART）进行切换，它适应数据并实现了在每个输入序列上相对于领导者跟随（FTL）策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾，通过我们的算法，我们证明 SMART 政策在任何输入序列上的遗憾在与 FTL 获得的遗憾和给定最坏情况策略保证的遺憾上都在乘法因子 e/(e-1)≈1.58 的范围内，同时它是简单易实施的，并通过一种基本的分析方法证明了实例上在线学习相对于滑雪租赁问题的竞争分析的可行性，我们还提出了 SMART 的一个修改版本，通过将 FTL 与 “小损失” 算法相结合，实现了在 FTL 和小损失遗憾上的实例最优性。

Feb, 2024

单调随机优化的半强盗学习

通过提供一种具有与最佳近似算法（在已知分布下）相对于平方根的 T 乘以 log T 束缚的通用在线学习算法，在半探测器环境中解决了在一大类 “单调” 随机问题中对于未知分布是否能够获得良好（近似）算法进行学习的问题。我们的框架适用于随机优化的若干基本问题，如先知不等式、潘多拉盒、随机背包、随机匹配和随机次模优化。

Dec, 2023