Jun, 2024

使用熵激活控制大型语言模型代理

TL;DR研究表明使用预训练的大型语言模型作为上下文学习代理是有前途的,但由于其存在过度自信和不足的探索性行为,需要引入一种激活导引方法以增加不确定性并控制代理对决策的表示方式。