Oct, 2022

利用渐进领域自适应的最优传输进行课程强化学习

TL;DR该研究将课程机器学习作为优化输运问题来量化和生成任务分布之间的移动,并提出了一种称为 GRADIENT 的算法来处理连续和离散背景下的非参数分布。 实验结果表明,该算法在学习效率和渐进性能方面均优于基线。