multi-arm bandit | BriefGPT

关键词multi-arm bandit

搜索结果 - 7

行动消失下的弱监督学习
我们提出了一种方案，可以使任何多臂赌博算法在作用擦除通道下表现出与无擦除情况下不差于一阶的最坏后悔率；此方案基于一个新颖的多臂赌博设置，在该设置中，学习器需要通过擦除通道向分布式代理传达动作信息，而通过外部传感器直接收集动作回报。
PDF10 days ago
社交网络中减少极端化倾向
该研究提出了一种可避免过滤气泡的内容筛选和个性化模型，该模型采用多臂赌博机策略，并提供了算法保证和匹配下限。为了避免过滤气泡，该作者集中在由 $i$ 用户在 $T$ 时间步内与平台互动选择来自 $k$ 个类别的内容，同时该平台根据多臂赌博机
PDFa year ago
通过 K-Arm 优化进行深度神经网络的后门扫描
本研究提出了一种基于多臂赌博策略的 K-Arm 优化方法来检测深度学习系统中的后门攻击，并成功在超过 4000 个模型上取得了领先的性能。
PDF3 years ago
深度强化学习中的战术乐观主义和悲观主义
该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价
PDF3 years ago
NIPS一种用于选择强化学习智能体的赌博机框架
本文提出一种基于多臂赌博机框架的深度强化学习方法，通过选择最适合特定应用的学习模型和增强学习代理，解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理，并且相较于其他策略在同样步数内获得更高的累计奖励
PDF5 years ago
带有补偿的多臂赌博机
该论文提出并研究了一种多臂赌博（Multi-arm bandit）问题，即已知补偿的多臂赌博问题，在此问题中，控制器向许多短期玩家提供一组机械臂，玩家在每个时间步骤上挑选最优的机械臂以最大化获得收益，研究结论表明，所提出的算法均实现了与理论
PDF6 years ago
模拟器：理解中等置信度下的自适应采样
提出了一种名为模拟器的新技术，用于分析自适应取样，该方法通过考虑已收集的有限数据量不足以区分好的采样策略和不好的采样策略的难度，从而超越了现有方法，使我们能够匹配 Fano 和 change-of-measure 技术的优点，并应用于固定置
PDF7 years ago