Jun, 2024

模糊逻辑引导的奖励函数变化:强化学习程序测试的预示者

TL;DR提出基于模糊逻辑的自动化预言方法来解决强化学习程序中的预言问题,通过量化智能体对奖励策略的行为一致性并分析其在训练过程中的趋势,如果行为一致性趋势违反预期,则将程序标记为 “有问题”,研究结果表明该方法在复杂环境中表现出优越的性能,为强化学习程序的测试提供了潜在的解决方案,提升了测试的效率、可靠性和可扩展性。