BriefGPT.xyz
Ask
alpha
关键词
exploratory preferences
搜索结果 - 1
利用有选择性注意力建模非加强学习的偏好
提出了一种人工智能代理学习无强化偏好的机制 extsc {Nore},通过利用代理的世界模型来收集不同的经验,然后通过选择性注意和门控机制更新代理的偏好,证明了其在无外部信号和波动性下可以诱导探索性偏好的有效性。
PDF
2 years ago
Prev
Next