May, 2022

利用偏好获取用户感知的算法性干预

TL;DR本研究提出了一种新的范式,通过引入首个基于人类偏好征集的人在环路方法,将用户视为过程的主动参与者,结合蒙特卡洛树搜索的强化学习智能体以提供个性化干预以实现算法回溯。