Jul, 2024

利用强化学习在知识传递中的探索

TL;DR比较了几种用于深度迁移学习算法中的探索方法,尤其是Deep Target Transfer Q-learning算法,并在虚拟无人机问题上进行了测试,结果表明上置信界算法表现最佳,可持续性需要进一步验证。