Jul, 2022
利用有选择性注意力建模非加强学习的偏好
Modelling non-reinforced preferences using selective attention
Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey Zakharov...
TL;DR提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore},通过利用代理的世界模型来收集不同的经验,然后通过选择性注意和门控机制更新代理的偏好,证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。