Jun, 2023

透过反事实贡献分析的长期信用分配问题

TL;DR本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。