Oct, 2022

利用强化学习代理为人在环境中提供遵守建议的验证

TL;DR本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法,并探索了基于此方法的 Human-in-the-loop 反馈机制,提供具有可解释性的方法以解决 Advice-Conformance Verification 问题,并通过实验证明了该方法的有效性和有效性。