Mar, 2024
基础模型和指令调整的大型语言模型的可信度估计比较
Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models
Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova
TL;DR通过比较基本模型和指导调优后的 LLM 在英语句子合理性任务中的性能,本文综合研究了评估 LLM 中语义合理性的方式,并发现 LL 分数依然是最可靠的衡量 LLM 合理性的指标,而直接指引则不如之前所预期。