Oct, 2023

无正性政策学习的观测数据

TL;DR利用观察数据进行政策学习在各个领域中至关重要,本研究介绍一种新型的无正性假设的(随机)政策学习框架,用于解决实际场景中正性假设不可行的挑战,该框架利用增量倾向得分策略来调整倾向得分值,而不是将固定值分配给治疗方案,通过半参数效率理论建立了这些增量倾向得分策略的特征和识别条件,并提出了能够实现快速收敛速度的高效估计器,即使与先进的机器学习算法结合使用,本文通过全面的数值实验验证了所提出的框架在有限样本情况下的性能,确保从观察数据中识别因果效应的可靠性和稳健性。