Mar, 2023

Preference Transformer:使用 Transformers 模拟人类偏好的 RL 建模

TL;DR研究了基于偏好的强化学习应用于人类决策,使用transformer建立时间依赖的偏好模型,在控制任务上成功训练,对人类决策的时间依赖可以自动捕捉。