Jul, 2022

利用有选择性注意力建模非加强学习的偏好

TL;DR提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore},通过利用代理的世界模型来收集不同的经验,然后通过选择性注意和门控机制更新代理的偏好,证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。