Jun, 2023

自带数据!面向大语言模型的自监督评估

TL;DR提出了一种自监督评估框架,用于分析大型语言模型的敏感性或不变性,以测量其中的知识、毒性、远程上下文依赖性等特征,以及语法结构和令牌化错误,这一自监督评估可直接监视大量的真实数据,以帮助评估大型语言模型的行为表现。