thompson sampling | BriefGPT

关键词thompson sampling

搜索结果 - 153

数据采样的记忆序列长度对元强化学习智能体的适应性的影响
研究表明，对元强化学习代理的数据抽样策略，如长记忆和短记忆序列抽样策略，对其在未知环境中的表示和适应能力有着重要影响。基于贝叶斯最优理论的算法比基于汤普森抽样的算法表现出更强的适应性和鲁棒性，突出了适当的数据抽样策略在代理程序对于未知环境表
PDF16 days ago
基于近似采样的强化学习更高效的随机探索
这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一
PDF16 days ago
图神经汤普森采样
我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且
PDF19 days ago
一种用于合作资源分配的联合在线不安分强盗框架
使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私
PDF22 days ago
ACL通过提前退出进行投机解码以加速 LLM 推断，并采用汤普森抽样控制机制
在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前 N 层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生
PDFa month ago
基于贝叶斯的在线规划
蒙特卡洛树搜索和神经网络的结合彻底改变了在线规划。我们提出了一种贝叶斯规划方法，通过经典元推理文献中的思想，利用神经网络输出的不确定性估计来改善规划。我们在可能行动的树中提出了一种基于汤普森抽样的搜索算法，并证明了有限时间的贝叶斯后悔上界，
PDFa month ago
使用 LLMs 进行代码修复的探索 - 利用权衡
利用大型语言模型（LLMs）迭代改进和修复源代码已成为一种流行的方法，该方法被称为细化，可生成过于复杂无法一次构建的程序。我们发现细化代码暴露了探索与利用的权衡：通过改进通过测试用例的程序进行利用，或通过改进较少考虑的程序进行探索。我们将其
PDFa month ago
两人盲拧游戏中无算法串通的托马斯・桑普林
当两个玩家在具有未知收益矩阵的重复博弈中相互无意识地使用多臂赌博算法选择行动时，我们展示了当玩家使用汤普森抽样时，游戏动态收敛到纳什均衡的情况，尽管在这种情况下算法勾结不会发生，尽管玩家没有刻意采取竞争策略。为了证明收敛结果，我们发现随机逼
PDFa month ago
无限时间段折现决策过程的汤普森抽样
我们通过建立一个马尔可夫决策过程模型，研究一种名为汤普森采样的采样算法的渐近行为。我们展示了标准（期望）遗憾可能呈超线性增长，并且不能很好地捕捉到在具有非平凡状态演进的现实情况下的学习概念。通过分解标准（期望）遗憾，我们提出了一种新的指标，
PDF2 months ago
智能和适应后验采样算法用于二元选择
我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的
PDF2 months ago
合作多智体强化学习中的随机探索
我们提出了第一个关于合作多智能体强化学习（MARL）中可证明效率的随机探索的研究，提出了一种统一的随机探索算法框架，以及两种基于 Thompson Sampling（TS）的算法。我们在多个并行强化学习环境中评估了我们的方法，包括深度探索问
PDF3 months ago
使用汤普森抽样在线学习决策树
决策树在可解释的机器学习中是重要的预测模型，本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT)，在在线环境中通过汤普森抽样来产生最优的决策树，并经过实验证明该算法在几个基准测试中表现优于现有算法，并具有适用于在线环境的实际优势。
PDF3 months ago
关于大型语言模型的决策重要性中的不确定性
我们研究了在自然语言作为输入的决策问题中不确定性的作用，发现在大型语言模型中忽视了不确定性对于带有大型语言模型的赌博任务具有基础性的作用。
PDF3 months ago
共享仿射子空间中的元学习在赌博机中的应用
通过在线主成分分析学习低维仿射子空间，从而降低遇到的赌博机的预期遗憾，我们研究了通过充分利用其集中性解决多个情境随机赌博任务的元学习问题。我们提出并理论地分析了两种解决方法：一种是基于在不确定性面前的乐观原则，另一种是通过汤普森抽样。我们的
PDF3 months ago
无家可归街头外展和采集可食食物的资源受限随机调度算法
我们开发了一种常见的算法解决方案，解决了社会变革组织在不同任务和运营中遇到的资源不足的问题。我们针对部分观测的短期不安宁盗贼问题，研究了估计和优化方法，并开发了一种基于汤普森抽样和马尔可夫链恢复的算法，将其应用于一个帮助纽约无家可归者过渡至
PDF4 months ago
最小化 Thompson 采样后悔率对标准差比率 (TS-RSR)：一种可证明高效的批量贝叶斯优化算法
该论文提出了一种新的批处理贝叶斯优化方法，通过最小化概率预测均值或不确定性来协调每个批次中选择的动作，以减少冗余，并在非凸测试函数上表现出卓越的性能。
PDF4 months ago
ε- 贪婪汤普森采样用于贝叶斯优化
改良的 Thompson 抽样方法（TS）在贝叶斯优化（BO）中解决了利用 - 探索困境问题，在通过随机生成和最大化高斯过程（GP）后验样本路径来优先进行探索的同时，引入了 epsilon-greedy 策略来管理其利用，该策略随机在两种极
PDF4 months ago
影响性强盗：偏好塑造的臂选择
该研究论文探讨了非平稳的多臂赌博机中，通过观察到的奖励来积极和消极地加强人群偏好，算法的目标是塑造人群偏好，从而最大化人群中支持特定臂的比例，提出了不同意见动态模型，包括两种二元意见动态（弹性递减和常数弹性），探讨了不同策略及其遗憾值的分析
PDF4 months ago
部分可观察情境下的汤普森抽样
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
PDF5 months ago
上下文多臂赌博机的树集成
我们提出了一种基于树集成的上下文多臂赌博机的新框架，通过整合上界置信度和汤普森采样两种广泛使用的赌博机方法，用于标准和组合设置。通过几项实验研究，我们使用了流行的树集成方法 XGBoost 来证明我们的框架的有效性。与基于神经网络的最先进方
PDF5 months ago