BriefGPT.xyz
Ask
alpha
关键词
offline rl algorithm
搜索结果 - 4
跨两个领域利用无标签领域数据的离线增强学习
通过开发一种融合正负无标签学习的离线强化学习算法,该研究论文针对域未标记数据的挑战,有效地识别领域并学习优于基准的策略,以实现域未标记数据的有效利用。
PDF
3 months ago
逆强化学习中悲观主义的优点
通过使用离线 RL 算法作为 IRL 过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。
PDF
5 months ago
ICLR
随机帧丢失下的决策变换器
本文提出了一种名为 “基于随机帧丢失的决策变换器” 的离线强化学习算法,可以使代理在帧丢失场景下稳健地行动,同时不需要在线交互数据,该算法通过随机掩蔽离线数据并显式地添加帧丢失的时间跨度作为输入,使用相同的离线数据集进行微调,可以在严重的帧
→
PDF
a year ago
保守型离线分布式强化学习
提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC,通过对预测收益分位数的度量来适应分布式强化学习,证明 CODAC 学习一个保守收益分布,并在机器人导航任务上成功地学习了风险厌恶策略,表现优于 D4RL MuJoCo 基
→
PDF
3 years ago
Prev
Next