关键词offline reinforcement learning
搜索结果 - 319
- 离线强化学习的网格映射伪计数约束
提出了一种用于连续领域的新型基于计数的方法(Grid-Mapping Pseudo-Count method,GPC),通过伪计数约束状态和行动空间的 Q 值,以适当地惩罚 Q 值并降低计算成本,实验结果表明 GPC-SAC 算法在性能和计 - CtRL-Sim: 反应性和可控驾驶代理的离线强化学习
在这项研究中,我们提出了一种名为 CtRL-Sim 的方法,它利用退化条件离线强化学习和物理增强的 Nocturne 模拟器,通过处理真实世界的驾驶数据来有效生成具有反应性和可控性的交通代理。我们展示了 CtRL-Sim 能够高效生成多样且 - 离线强化学习在视觉和语言导航中的扩展
通过使用次优示范数据进行视觉语言导航 (VLN) 的离线强化学习 (ORL) 研究,引入了一种简单且有效的奖励条件方法来训练 VLN 代理,并在该领域推动研究进展和评估。实验证明,即使在复杂和复杂的环境中,所提出的奖励条件方法也能显著提高性 - 基于不确定性的分布离线强化学习
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
- 离线强化学习:状态聚合和轨迹数据的作用
离线强化学习中,对于具有价值函数的可实现性但不具备 Bellman 完备性的问题,我们提供了关于离线策略评估任务的负回答,并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性,即使原始 MDP 中的集中度系数较小且离线数据可接受 - GeRM:一种混合专家四足机器人的通用模型
GeRM 是一种多任务机器人学习方法,利用离线强化学习优化数据利用策略来从示范和次优数据中学习,通过引入专家混合结构解决有限的强化学习参数问题,并提供更快的推理速度和更高的模型容量,同时控制计算成本,在多任务学习中提高模型性能。通过一系列实 - 离线强化学习的简单成分
离线强化学习算法被证明在与目标下游任务高度相关的数据集上非常有效,然而,在轨迹来自不同源头的新测试平台(MOOD)上,我们发现现有方法在面对不同数据时效果明显下降:随着收集到的与任务相关但不同的数据简单地添加到离线缓冲区,它们的性能显著恶化 - 离线分布鲁棒线性马尔科夫决策过程的样本复杂度
通过使用离线数据,基于分布健壮的线性马尔科夫决策过程,开发了一种悲观的模型算法,提供了一个具有样本效率的鲁棒性学习策略,以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。
- 借势中介器的悲观因果强化学习与混淆线下数据
通过采用基于前门准则的中介变量来消除混淆偏差,以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移,我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL), - 离线强化学习的优势感知策略优化
离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互,以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法,用于 - ICLR强化学习中的上下文探索与利用
在传统的强化学习方法中,基于离线学习的在线策略学习是一种有希望的方法,然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法,通 - 优化 AI 辅助决策中的人本目标与离线强化学习
通过离线强化学习作为一般方法对人工智能决策进行建模,以优化以人为中心的目标,本研究指出人们与经过优化的策略进行交流时,在准确性方面取得了显著提高,并强调了在人工智能决策中考虑除决策准确性之外的人为目标的重要性。
- 竞技游戏离线虚构自我对弈
该研究介绍了 Off-FSP,这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互,学习最佳响应以及应用离线自我对弈学习框架,并进一步实现虚构自我对弈 (FSP) 以近似纳什均 - 数据稀缺情况下信赖区域增强的数据困局可靠决策
在只有每个臂的单个样本的数据匮乏情况下,本研究展示了即使在这种情况下也可能找到与最优策略相竞争的策略,这为基于仅有少量样本进行可靠决策的场景开辟了道路。我们的分析揭示了离线决策中,随机策略可能比确定性策略显著优越。针对离线多臂赌博机,我们设 - MORE-3S:基于多模态的离线强化学习与共享语义空间
利用多模态和预训练语言模型,该论文提出了一种新的方法,将离线强化学习转化为监督学习任务,通过将图像的状态信息与文本中的动作相关数据结合,提高了强化学习的训练性能和长期战略思维,并强调语言的情境理解如何有助于强化学习中的决策制定。实验证明该方 - 意图对齐:离线优化传输的模仿学习
通过从环境中观察专家,尽管没有明确的奖励或动作标签,但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法,在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示,定义了内在奖励函数,改善了其他线下强化学习算法在稀疏奖 - 离线多任务转移强化学习与表示惩罚
我们研究了离线强化学习中的表示转移问题,提出了一种算法来计算学习表示的点态不确定性度量,并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题,并在需要完全 - 离线模型基强化学习中的达到边界问题
模型辅助的离线强化学习方法在现有理论框架下存在无法解决的边界问题,因此提出了针对此问题的效果显著的新方法 Reach-Aware Value Learning (RAVL)。
- 离线强化学习中的奖励污染攻击
我们研究了利用深度神经网络进行函数逼近的一般离线强化学习中奖励污染攻击问题。我们提出了一种名为 `策略对比攻击` 的攻击策略,通过使一些低性能策略看起来像高性能策略,同时使高性能策略看起来像低性能策略来进行攻击。据我们所知,这是首个在一般离 - 差分隐私模型导向的离线强化学习
我们提出了具有隐私保证的离线增强学习方法,目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标,我们引入了 DP-MORL,一个带有差分隐私保证的 MBRL 算法。首先,使用 DP-FedAvg 从离线数据中学习到环境的私