- 进化启发式奖励引导的解码时对齐
利用进化方法,通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。
- 解耦无监督预训练中的探索与利用:后继特征
通过非整体探索方法,我们提出了一种基于后继特征(SFs)的新型无监督预训练模型,该模型分解了代理人的开发和探索,旨在改善原始的后继特征预训练的整体探索方法的性能,并在比较实验中超越了具有后继特征的主动预训练(APS)。
- 使用软 RLLF 在 LLM 中平衡探索与开发以提升否定理解
通过在语言模型中保持探索和利用的有效平衡,我们利用来自逻辑反馈的强化学习方法(RLLF)提高了否定理解能力,从而改进了在复杂高风险领域中的语言模型。
- 部分可观察情境下的汤普森抽样
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
- 主动推理作为代理模型
活动推理是一种规范性贝叶斯框架,能够模拟和建模智能代理行为,同时提供了对探索和利用之间的困境的原则性解决方案。
- Prometheus:利用 AI 生成的攻击图进行基础设施安全态势分析
网络安全威胁,安全评估,漏洞分析,攻击利用,攻击路径
- 经典规划中基于尺度自适应的探索与利用平衡
提出了一种基于 UCB1-Normal 赌博机算法的 MCTS / THTS(Monte Carlo Tree Search / Trial Based Heuristic Tree Search)算法,该算法可以处理具有不同尺度的奖励分布 - 经典随机游走与量子游走驱动的赌博算法
本文提出了一种基于量子漫步的算法来解决多臂赌博机问题,通过将探索和利用与量子漫步的两种行为联系起来,我们表明这种新的基于量子漫步的策略相对于相应的基于随机漫步的策略实现了高性能。
- 末端具身视觉导航
提出了一种名为 SLING 的新方法,致力于通过使用神经描述符和简单而有效的切换来改进现有的图像目标导航系统,在图像目标导航基准测试中取得了很大的成功,从而将成功率从 45%提高到 55%。
- 优雅遗忘 II. 数据作为过程
本文探讨了数据从获取、筛选再到利用三个不同阶段的处理过程,强调了协调将数据变成摘要统计信息并不断调整缩放的重要性以最大化其价值。
- 强化学习中探索在任务迁移中的作用
探索利用平衡是强化学习领域中一个著名且被广泛研究的问题,该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。
- MM在跨时间社会困境任务中平衡探索和利用,提高合作
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
- 低秩 MDP 中在线和离线 RL 的表示学习
本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习,并致力于改进样本复杂度,并提出 REP-UCB 算法。
- ICML非眼力学的多保真主动搜索
该研究提出了一种适用于多样性主动搜索的模型,该模型基于计算机仿真技术,开发了一种新颖的节约预算的策略,能够在探索和利用之间动态平衡,并在真实世界数据集上取得了明显的改进。
- ACLShellcode_IA32: 自动 Shellcode 生成的数据集
本研究的主要目标是利用自然语言注释自动生成用于软件漏洞利用的负载代码,我们收集了一个挑战性的数据集并尝试使用神经机器翻译方法建立基准性能水平。
- Restless-UCB,在线不安定赌博机的高效低复杂度算法
提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题,在 Restless-UCB 中,利用前期的探索来做出更好地决策,证明了期望最大化问题在合理的标准下得到了可行的上界,相较于现有算法,使用一种新的对于状态 - ICML元强化学习的探索与利用解耦,无需牺牲
本文提出一种基于策略梯度优化的元强化学习方法,该方法不但可以在学习新任务时快速利用之前相关任务的经验,还能自动识别任务相关信息来避免局部最优解。实验结果表明,该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。
- ICMLSUNRISE: 一种简单的深度强化学习集成学习框架
本文介绍了 SUNRISE 算法,它是一种简单统一的集成方法,通过加权贝尔曼反演和选取最高上限置信度边界等方法,有效缓解了标准离线强化学习算法中的 Q-learning 不稳定性和探索与开发平衡等问题。实验表明,该算法进一步提高了现有的连续 - 自由能从何而来?
通过分解主动推断的预期自由能 (EFE) 为外部价值和内部价值,来平衡探索和利用。本文研究 EFE 的数学起源及其与变分自由能的关系,发现探索行为并非简单的自由能最小化。我们提出了一种新的目标函数 —— 预期未来的自由能 (FEEF),具有 - 强化学习中的保守探索
本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念,并提出了两种乐观算法,以保证学习过程中不违反保守约束,这不会妨碍算法的学习能力,并给出了后悔界限。