reward maximization | BriefGPT

关键词reward maximization

搜索结果 - 12

ICLR带有可行性引导扩散模型的安全离线强化学习
通过可行区域定义的安全约束，最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR（FeasIbility-guided Safe Offline RL）是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。
PDF6 months ago
有限资源下的偏好学习复杂性理解
奖励最大化问题中，我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法，并通过数值模拟证明了我们提出方法的有效性。
PDF6 months ago
政策导向的设计：离线策略优化的保守测试时间适应
本文提出了 DROP 方法，通过离线学习一个 MBO 分数模型在内部级别上进行优化，在外部级别上进行优化以获得奖励最大化并通过引入行为嵌入和保守规则限制，使得 DROP 具备了测试时间自适应能力。与传统离线 RL 方法相比，DROP 取得了
PDFa year ago
在局部观测下，结合信息寻求探索和奖励最大化：统一的连续状态和行动空间推断
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化，将主动推理与强化学习结合起来，不仅解决了各自的局限性，同时还具有超越传统方法的探索新颖奖励的性能。
PDF2 years ago
关于强化学习和分布匹配的论文，用于微调语言模型以避免灾难性遗忘
研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。
PDF2 years ago
ICLR关于在观测扰动下安全强化学习的鲁棒性
本文研究了安全强化学习中观测对抗攻击的安全性和鲁棒性，并提出了两种新方法以最大化代价或奖励来攻击目标，同时提出了一种鲁棒性训练框架。
PDF2 years ago
AAAI集成奖励最大化和人口估计：针对国内税务局审计选择的顺序决策
本研究提出了一种新的优化与估计结构化赌博问题（optimize-and-estimate structured bandits）的设定，应用于美国国税局的税款欠缴率估计。研究表明，本研究的方法可以有效提高审计效率和准确性，并有效评估纳税缺口
PDF2 years ago
标量奖励不足够：对 Silver、Singh、Precup 和 Sutton（2021）的回应
该论文提出了奖励最大化是所有智能的基础，但我们认为标量奖励无法解释生物和计算智能的某些方面，因此应采用显式的多目标奖励模型，并且即使标量奖励可以触发智能行为，也应避免使用这种方法来开发人工通用智能，因为会存在不安全或不道德的行为风险。
PDF3 years ago
ICLR无记忆随机策略优化在无限时域 POMDP 中的几何
本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中，根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。
PDF3 years ago
ICMLPOMDP 中的强健非对称学习
通过使用奖励最大化目标，我们提出了一种高效算法 A2D，共同训练专家和智能体，以帮助智能体模仿一个安全的专家策略，从而优于模仿固定专家所学习的策略。
PDF4 years ago
MM训练交互式辅助工具
本文提出了一种元学习策略，通过与一个名为 “prime” 代理互动，训练一个 “helper” 代理来最大化其奖励，而不观察其奖励或接收显式演示，并介绍了一些协作的觅食任务，通过物理交流，训练的 helper 代理可以快速推断和收集正确的对
PDF5 years ago
ACL采用单步奖励观察的顺序指令到动作的现场映射
该研究提出了一种学习方法，用于将上下文相关的顺序指令映射到动作，并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型，从而实现单步奖励观测。同时，该算法考虑到交互的历史和世界状态的影响，通过实验表明，相较于逻辑表示方法，提出的算法在
PDF6 years ago