Mar, 2024

基础模型和指令调整的大型语言模型的可信度估计比较

TL;DR通过比较基本模型和指导调优后的 LLM 在英语句子合理性任务中的性能,本文综合研究了评估 LLM 中语义合理性的方式,并发现 LL 分数依然是最可靠的衡量 LLM 合理性的指标,而直接指引则不如之前所预期。