Jan, 2024

应用于强化学习的纠正误指的回归中减轻协变量变化

TL;DR在机器学习应用中普遍存在分布偏移现象,本文研究在模型错误规定和对抗性协变量偏移存在的情况下的分布偏移影响,提出一种新的算法,通过鲁棒优化技术避免了错误规定放大,同时获得最佳的统计指标,应用于离线和在线强化学习。