ICMLJun, 2024

大型语言模型符合人们的期待吗?测量人类的普适能力函数

TL;DR人们使用大型语言模型的目的,以及这些模型的部署决策、人类泛化功能的一致性,以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。