Jan, 2025

TimeRL:具有多面体依赖图的高效深度强化学习

TL;DR本研究针对复杂深度强化学习算法中数据依赖性的问题,提出了一种新颖的TimeRL系统,结合了动态执行的灵活性与图形执行的全程序优化。TimeRL通过引入递归张量的声明式编程模型,实现了动态数据依赖的表达,从而在执行速度上比现有系统快达47倍,并且显著降低了GPU内存的使用。