conservatism | BriefGPT - AI 论文速递

关键词conservatism

搜索结果 - 8

ICLR组成保守主义：离线强化学习中的传导式方法
离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决，该方法在复杂的输入空间中寻找共享分布点和差异，从而提高算法性能。
PDF3 months ago
离线强化学习的预测离策略 Q 学习（POP-QL）的稳定化
稳定离线策略 Q 学习的新方法，通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误，能在标准基准测试中竞争性地表现，并在数据收集策略明显次优的任务中胜过竞争方法。
PDF7 months ago
精确的保守物理知识神经网络与深度操作网络对于动力系统的应用
我们介绍了一种用于训练动力学系统的保守型物理信息神经网络和深度算子网络的方法，该方法利用基于投影的技术将通过神经网络求解器学习到的候选解映射到不变流形上。我们证明了在数学科学的几个实际问题中，相比于非保守型方法，精确保守型的物理信息神经网络
PDF7 months ago
CROP：基于模型的线下策略优化的保守奖励
通过引入保守性估计奖励的方法，本论文提出了一种创新的基于模型的离线增强学习算法，名为 CROP，该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励，从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中
PDF8 months ago
保守世界模型
通览全文后，我们发现：利用前后表示法（FB）及保守策略，即使在小数据集上训练，零样本强化学习在各个数据集、领域和任务中可以比纯 FB 性能高达 150%，且保守策略算法表现不亚于任务特定算法。
PDF9 months ago
领域：温和保守的基于模型的离线强化学习
这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化
PDF10 months ago
离线强化学习的置信度条件值函数
本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现，并能在任何期望的置信度下产生真实值的保
PDF2 years ago
在归一化流的潜空间中训练保守智能体的离线强化学习流程
该研究的目标是通过使用 Normalizing Flows 进行深度学习，利用先前记录的数据集来训练一个采取更保守行动的策略模型，以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估，并证明了与最近提出
PDF2 years ago