Jun, 2024

评估生成模型中的世界模型

TL;DR大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。