Jun, 2023
自带数据!面向大语言模型的自监督评估
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu...
TL;DR提出了一种自监督评估框架,用于分析大型语言模型的敏感性或不变性,以测量其中的知识、毒性、远程上下文依赖性等特征,以及语法结构和令牌化错误,这一自监督评估可直接监视大量的真实数据,以帮助评估大型语言模型的行为表现。