BriefGPT.xyz
Ask
alpha
关键词
propensity estimation
搜索结果 - 2
使用平衡权重进行反事实表示学习
本文介绍了在因果推断中使用加权重来实现预测功能的平衡,强调了确定合适的目标人群的重要性,并使用引理将平衡与倾向性评估的质量联系起来,最终展示了学习到的加权表示如何促进具有吸引力统计特征的替代因果学习过程。
PDF
4 years ago
ICLR
元强化学习
Meta-Q-Learning (MQL) 是一种新的离线策略算法,它建立在三个简单的思想之上:使用过去轨迹的表示作为上下文变量可以使 Q-learning 与最先进的元 RL 算法相竞争;最大化训练任务的平均奖励的多任务目标是元训练 RL
→
PDF
5 years ago
Prev
Next