BriefGPT.xyz
Ask
alpha
关键词
contextual multi-armed bandit
搜索结果 - 5
使用 LLM 生成的先验知识启动 Bandits
将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法,通过提示语言模型生成预训练数据集,以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证,其中一组利用大型语言模型作为预测模拟器
→
PDF
9 days ago
基于延迟反馈的预算推荐
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
PDF
2 months ago
联邦语境强化学习中的公平性和隐私保证
在联邦环境中,考虑具有公平性和隐私保证的上下文多臂赌博机问题。我们提出了一种新的通信协议,使得联邦学习更加有效,并提供了确保差分隐私的算法。我们通过广泛的模拟实验证明了我们提出算法的有效性。
PDF
5 months ago
WWW
面向推荐系统中多方面社会影响的深度潜在表示的双图关注网络
本文提出了一个新的社交推荐模型,使用双重图注意力网络来协同学习两种社交效应的表示,并在上下文中使用基于策略的融合策略来提高推荐精度。
PDF
5 years ago
一种高效的含背包限制多臂赌博算法,以及对凹目标问题的扩展
研究了具有全局背包限制条件下的上下文多臂赌博问题,提出了一种计算效率更高、后悔更低的算法,复杂度与策略空间的大小成对数关系,并将结果推广到一种没有背包限制但目标是任意 Lipschitz 凹函数的变体。
PDF
9 years ago
Prev
Next