Mar, 2024

基于玻璃盒特征的大型语言模型的自我评估

TL;DR通过研究自评估的情景,我们探索了使用开源大型语言模型 (LLMs) 进行自我评估的实用性,发现了 softmax 分布作为质量评估的可靠指标,并提出了两种增强评估的策略,从引用中获取特征。通过公共基准的实验结果验证了使用模型自我评估的可行性。