Apr, 2024

概率也很重要:大型语言模型中自由文本解释的忠实度的更为准确的评估指标

TL;DR评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性,并发现我们的度量考虑了 CT 遗漏的忠实性方面。