Mar, 2025

安全可解释的策略搜索

TL;DR本研究解决用户对AI代理的期望与代理计划行为之间的不一致问题,提出了一种安全的可解释策略搜索(SEPS)方法。该方法结合了约束策略优化和可解释策略搜索,创新性地实现了安全行为生成。研究结果表明,SEPS能够在确保安全性的同时生成符合用户期望的可解释行为,并具备在实际人机协作中的应用潜力。