exploitation | BriefGPT - AI 论文速递

关键词exploitation

搜索结果 - 39

进化启发式奖励引导的解码时对齐
利用进化方法，通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。
PDF15 days ago
解耦无监督预训练中的探索与利用：后继特征
通过非整体探索方法，我们提出了一种基于后继特征（SFs）的新型无监督预训练模型，该模型分解了代理人的开发和探索，旨在改善原始的后继特征预训练的整体探索方法的性能，并在比较实验中超越了具有后继特征的主动预训练（APS）。
PDF2 months ago
使用软 RLLF 在 LLM 中平衡探索与开发以提升否定理解
通过在语言模型中保持探索和利用的有效平衡，我们利用来自逻辑反馈的强化学习方法（RLLF）提高了否定理解能力，从而改进了在复杂高风险领域中的语言模型。
PDF4 months ago
部分可观察情境下的汤普森抽样
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
PDF5 months ago
主动推理作为代理模型
活动推理是一种规范性贝叶斯框架，能够模拟和建模智能代理行为，同时提供了对探索和利用之间的困境的原则性解决方案。
PDF5 months ago
Prometheus：利用 AI 生成的攻击图进行基础设施安全态势分析
网络安全威胁，安全评估，漏洞分析，攻击利用，攻击路径
PDF7 months ago
经典规划中基于尺度自适应的探索与利用平衡
提出了一种基于 UCB1-Normal 赌博机算法的 MCTS / THTS（Monte Carlo Tree Search / Trial Based Heuristic Tree Search）算法，该算法可以处理具有不同尺度的奖励分布
PDFa year ago
经典随机游走与量子游走驱动的赌博算法
本文提出了一种基于量子漫步的算法来解决多臂赌博机问题，通过将探索和利用与量子漫步的两种行为联系起来，我们表明这种新的基于量子漫步的策略相对于相应的基于随机漫步的策略实现了高性能。
PDFa year ago
末端具身视觉导航
提出了一种名为 SLING 的新方法，致力于通过使用神经描述符和简单而有效的切换来改进现有的图像目标导航系统，在图像目标导航基准测试中取得了很大的成功，从而将成功率从 45％提高到 55％。
PDF2 years ago
优雅遗忘 II. 数据作为过程
本文探讨了数据从获取、筛选再到利用三个不同阶段的处理过程，强调了协调将数据变成摘要统计信息并不断调整缩放的重要性以最大化其价值。
PDF2 years ago
强化学习中探索在任务迁移中的作用
探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。
PDF2 years ago
MM在跨时间社会困境任务中平衡探索和利用，提高合作
通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。
PDF3 years ago
低秩 MDP 中在线和离线 RL 的表示学习
本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习，并致力于改进样本复杂度，并提出 REP-UCB 算法。
PDF3 years ago
ICML非眼力学的多保真主动搜索
该研究提出了一种适用于多样性主动搜索的模型，该模型基于计算机仿真技术，开发了一种新颖的节约预算的策略，能够在探索和利用之间动态平衡，并在真实世界数据集上取得了明显的改进。
PDF3 years ago
ACLShellcode_IA32: 自动 Shellcode 生成的数据集
本研究的主要目标是利用自然语言注释自动生成用于软件漏洞利用的负载代码，我们收集了一个挑战性的数据集并尝试使用神经机器翻译方法建立基准性能水平。
PDF3 years ago
Restless-UCB，在线不安定赌博机的高效低复杂度算法
提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题，在 Restless-UCB 中，利用前期的探索来做出更好地决策，证明了期望最大化问题在合理的标准下得到了可行的上界，相较于现有算法，使用一种新的对于状态
PDF4 years ago
ICML元强化学习的探索与利用解耦，无需牺牲
本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。
PDF4 years ago
ICMLSUNRISE: 一种简单的深度强化学习集成学习框架
本文介绍了 SUNRISE 算法，它是一种简单统一的集成方法，通过加权贝尔曼反演和选取最高上限置信度边界等方法，有效缓解了标准离线强化学习算法中的 Q-learning 不稳定性和探索与开发平衡等问题。实验表明，该算法进一步提高了现有的连续
PDF4 years ago
自由能从何而来？
通过分解主动推断的预期自由能 (EFE) 为外部价值和内部价值，来平衡探索和利用。本文研究 EFE 的数学起源及其与变分自由能的关系，发现探索行为并非简单的自由能最小化。我们提出了一种新的目标函数 —— 预期未来的自由能 (FEEF)，具有
PDF4 years ago
强化学习中的保守探索
本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。
PDF4 years ago