BriefGPT.xyz
Ask
alpha
关键词
risk extrapolation
搜索结果 - 2
针对鲁棒的基于模型的离线强化学习的领域通用性
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程
→
PDF
2 years ago
利用风险外推 (REx) 实现对于分布外数据的泛化
采用风险外推法的鲁棒优化可以在训练域和测试域之间进行平衡,从而提高模型对于分布漂移的抵抗能力,并且可以恢复目标的因果机制,同时还能提供对于输入分布变化具有一定鲁棒性的能力。
PDF
4 years ago
Prev
Next