May, 2023

分布鲁棒优化有效地解决离线强化学习问题

TL;DR本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法, 通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。