Sep, 2023
通过判别-评论间隙测量语言模型中的价值理解
Measuring Value Understanding in Language Models through
Discriminator-Critique Gap
TL;DR通过使用价值理解测量框架(VUM) quantitatively评估“知道什么”和“知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响“知道什么”,但对“知道为什么”的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。