Sep, 2024

离线RL基础的信息路径规划

TL;DR本研究解决了传统信息路径规划在环境交互中存在的风险和成本问题,提出了一种基于离线强化学习的新框架。该框架通过优化信息获取,利用批约束强化学习从预先收集的数据集中学习,有效减少了外推误差。实验证明,该方法在性能和计算速度上优于现有基线,具有重要的应用潜力。