BriefGPT.xyz
Ask
alpha
关键词
conservative q-learning
搜索结果 - 5
数字孪生的保守和风险意识离线多智能体强化学习
提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案,通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案,展示了其对轨迹规划问题
→
PDF
5 months ago
离线不平衡数据集的强化学习
通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程,有效地减轻了失衡数据集所带来的挑战,我们提出了一种新颖的离线强化学习方法,并在不同程度失衡的数据集上的几个任务中评估了其优劣。
PDF
a year ago
离线强化学习中的温和保守型 Q 学习
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得
→
PDF
2 years ago
利用深度强化学习进行无限时域达到 - 避免零和博弈
本文主要研究了无限时间视角下的 reach-avoid zero-sum 博弈问题,提出了基于收缩 Bellman backup 的价值函数和 Conservative Q-Learning 方法,求解约束条件下的到达目标集和控制策略的可行
→
PDF
2 years ago
离线强化学习的保守型 Q 学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离
→
PDF
4 years ago
Prev
Next