ICMLMay, 2024

跨领域离线强化学习中的数据过滤对比表示

TL;DR本文提出了一种基于表征的方法来测量领域差距,并通过对不同领域进行过渡采样来学习表征,从而解决合并两个领域数据导致性能下降的问题。通过基于表征的方法筛选数据,我们的实证结果表明,我们的方法仅使用目标数据的 10%就能以 89.2%的性能达到 100%目标数据集与最先进方法的性能。