在线有限内存神经线性赌博机及其似然匹配算法
研究采用神经线性策略模型解决高维度副信息序列决策问题,并设计了可用于线性上下文策略的高效探测机制,提出具有限内存神经线性策略防止该现象的新方法。通过在回归、分类和情感分析等各种真实世界数据集上评估我们的方法,我们得到了鲁棒性和优越性能。
Jan, 2019
本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法,以解决在非静态环境下的上下文在线学习和塞德利反馈问题,这些结果表明这些算法在一般的情境序列下,并且存在突然变化时具有高概率的上限置信度边界,证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。
Mar, 2020
将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法,通过提示语言模型生成预训练数据集,以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证,其中一组利用大型语言模型作为预测模拟器,另一组利用共同调查实验的数据进行真实世界实验。
Jun, 2024
本文提出了一种基于置信度的算法来处理自适应遗忘的自共轭概率线性泊松广义线性臂问题(GLB),并分析了其在突然变化环境中的性能,结果表明该方法有望解决 GLB 中的非平稳性问题。
Nov, 2020
研究了多智能体线性随机赌博问题的特定情况,称为聚类的多智能体线性赌博。提出了一种新颖的算法,在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估,理论分析了后悔最小化问题和聚类质量,证明了我们方法的有效性:我们的算法显著改善了后悔最小化,并成功恢复了真实的聚类划分。
Sep, 2023
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013
本文研究在线随机线性优化的特殊赌徒环境,其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量,并旨在最小化未知线性函数定义的遗憾。为了解决此挑战,我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。
Sep, 2015
通过构建神经协同过滤自适应组 Metaban 算法,本文将人工智能中的探究与利用困境(exploitation-exploration dilemma)应用于定制化推荐,并在实验中将 Metaban 与六种模型进行对比,结果表明 Metaban 显著优于其他模型的表现。
Jan, 2022