Jun, 2024

将价值迭代网络扩展到 5000 层,用于极长期规划

TL;DRDT-VIN 通过增加动态转移内核和引入自适应高速公路损失来提高价值迭代网络在强化学习中规划的表达能力和解决长期大规模规划任务的能力。