Oct, 2023

基于偏好的非参数离策略深度网络评估的样本复杂性

TL;DR使用深度神经网络通过学习值函数来逼近离线策略评估,从人类偏好数据中获取样本效率,而不受高数据环境维度束缚。