Aug, 2024

神经奖励机器

TL;DR本研究解决了非马尔可夫强化学习任务中的历史状态-动作对考量问题,提出了一种新颖的神经奖励机器(NRM)框架,能够在非符号非马尔可夫环境中进行推理和学习。NRM有效整合了半监督符号基础(SSSG)与强化学习,证明其能够在未掌握符号基础函数的情况下,运用高级符号知识并超越传统深度强化学习方法的性能。研究还提出了一种新算法,用于分析时间规范的基础性,这一方法效率比基线技术高出1000倍。