Mar, 2024
基于玻璃盒特征的大型语言模型的自我评估
Self-Evaluation of Large Language Model based on Glass-box Features
Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao
TL;DR通过研究自评估的情景,我们探索了使用开源大型语言模型 (LLMs) 进行自我评估的实用性,发现了 softmax 分布作为质量评估的可靠指标,并提出了两种增强评估的策略,从引用中获取特征。通过公共基准的实验结果验证了使用模型自我评估的可行性。