BriefGPT.xyz
Ask
alpha
关键词
transductive reparameterization
搜索结果 - 1
ICLR
组成保守主义:离线强化学习中的传导式方法
离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决,该方法在复杂的输入空间中寻找共享分布点和差异,从而提高算法性能。
PDF
3 months ago
Prev
Next