abstraction of markov decision processes is a useful tool for solving complex
problems, as it can ignore unimportant aspects of an environment, simplifying
the process of learning an optimal policy. In this paper
该研究论文介绍了一种基于马尔可夫决策过程(MDP)的快速模块化多目标跟踪框架,可用于各种应用领域,并提供了一个交互式 GUI,集成了目标检测、分割、多目标跟踪和半自动标注等功能,以帮助使用者更容易入门。虽然在性能方面没有突破性的进展,但 Deep MDP 有一个庞大的代码库,对于尝试新想法或者构建易于使用和适应的多目标跟踪系统的人群将会有很大的帮助。可以在指定的 URL 获取 Deep MDP。
研究了一种离线强化学习方法,在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示,并具有支持多种解决方案、零成本调整等特性;其主要贡献是引入了 Deep Averagers with Costs MDP,并研究了其在离线强化学习方面的解决方案。实验证明这种方法在实践中可以发挥作用,并可扩展到大型复杂的离线 RL 问题。