AAAINov, 2019

使用约束动作空间强化学习解决在线威胁筛查游戏

TL;DR本研究提出了一种旅客安全检查的在线威胁筛查模型,其中检查策略是当旅客到达时自适应确定的,同时满足不检查威胁的可接受风险硬性约束,解决了传统模型中固定时间窗口的限制,并采用基于线性不等式约束的强化学习算法,有效平衡了较少的安检资源和威胁较高的检查风险。