multi-armed bandit algorithm | BriefGPT

关键词multi-armed bandit algorithm

搜索结果 - 9

SwipeGANSpace：通过高效的潜空间探索实现滑动比较图像生成
使用生成对抗网络 (GANs) 生成偏好图像具有挑战性，因为潜在空间的高维性质。本研究提出了一种新方法，利用简单的用户滑动交互来生成用户偏好图像。为了有效地利用仅滑动交互的潜在空间，我们对 StyleGAN 的潜在空间应用主成分分析，创建有
PDF2 months ago
众包自适应调查
该研究介绍了一种众包自适应调查方法（CSAS），结合自然语言处理和自适应算法的进展，生成随用户输入而演变的问题库。该方法将参与者提供的开放性文本转换为李克特式项目，并应用多臂赌博机算法来确定应优先考虑的用户提供的问题。这种自适应方法允许探讨
PDF6 months ago
最小化人力成本的演示学习框架
本文探讨了机器人学习中的共享自治问题，提出了一种基于多臂赌博机算法的控制器选择方法，并通过模拟和实现任务验证了该方法降低了人类成本。
PDFa year ago
上下文赌博机的超参数调整
本文探讨了在线学习环境下，通过使用赌博机算法来自动确定探索参数，优化上下文赌博算法探索与利用的平衡问题。
PDF4 years ago
赌博机中渐进式保守探索的算法改进
本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案，并在多个合成和真实世界的问题中超越了现有的保守乐队算法。
PDF4 years ago
公平上下文多臂赌博机：理论与实验
本研究介绍一种带有公平性约束条件的多臂赌博算法，使用关于用户和任务的上下文信息进行决策制定，以展示公平的决策结果
PDF5 years ago
具有异质代理的贝叶斯探索
该研究考虑利用 Bayesian Exploration 方法设计推荐系统，通过信息不对等来鼓励用户进行探索，此外还将用户分为不同类型，以实现最佳的个性化推荐。
PDF5 years ago
NIPS对随机赌徒的对抗攻击
该论文研究了对多臂赌博算法进行的对抗攻击，以操纵奖励信号以控制算法选择的行动，并提出了针对常见的两种多臂赌博算法 epsilon-greedy 和 UCB 的攻击方案。这种攻击是在不知道平均奖励的情况下进行的，并且攻击者所需的努力是对问题特
PDF6 years ago
坐标下降与赌博抽样
提出一种自适应选择坐标方法来提高坐标下降方法的收敛性，该方法通过多臂老虎机算法学习使用具有较大下降下限的坐标进行更新，从而解决了检查所有坐标的困难，提高了计算效率。
PDF7 years ago