Dec, 2023

基于相似度的知识转移用于跨领域强化学习

TL;DR通过开发半监督对齐损失来匹配不同空间的一组编码器 - 解码器,本研究研究了如何衡量跨领域强化学习任务之间的相似性,以选择能够提高学习代理性能的知识源。实验结果表明,在各种 Mujoco 控制任务中,我们的方法能够有效地选择和传递知识,而无需与专家策略相匹配、配对或收集数据的监督。