Oct, 2022

你只能活一次:单生强化学习

TL;DR该研究提出了一种称为单次生命强化学习(SLRL)的新问题设置,探讨了在未知状态下如何适应的挑战,并使用 Q-weighted adversarial learning (QWALE)算法来应对这一挑战,该算法通过先前的经验来指导在新情况下的决策,实验结果表明优于现有方法 20-60%。