Sep, 2023

ORL-AUDITOR:离线深度强化学习数据集审核

TL;DR本文介绍了一种离线强化学习数据集审核机制ORL-AUDITOR,通过利用累积奖励作为唯一标识符,成功实现了对已发布数据集的审核,其审核准确度超过95%,误报率低于2.88%。