Feb, 2024

一个语言模型的隐空间指南

TL;DR通过用概念向量探测和激活推断期间的激活来引导隐藏表示,该论文将概念引导的研究拓展到诸如适应性、幽默、创造力和质量等更丰富的概念,探索现有检测和引导策略在这些挑战性环境中的工作程度,同时开发了一种新的以概念引导为度量的指标来评估,研究显示,一些概念如真实性相对容易通过现有技术进行引导,而适应性或幽默等新概念则更难探测和引导,并需要进一步调整。