Apr, 2023

利用无模型强化学习尽快满足形式规范

TL;DR提出了 ASAP-Phi 模型无需预设的强化学习框架,通过识别不符合正式规范的量化语义奖励来促使智能体尽快满足规范,配合使用 actor-critic 类算法对其进行训练,经过大量实验和基准测试,能够在 97% 的测试用例中找到足够快的轨迹并击败基线模型。