幻觉分类器CHAIR-Classifier的改进

Jan, 2025

CHAIR-Classifier of Hallucination as Improver

Ao Sun

TL;DR本研究针对大型语言模型中的幻觉检测问题，提出了一种监督学习方法。通过分析LLaMA模型中各层的标记分数，提取出一小组特征以减少过拟合，使用逻辑回归进行分类，并在TruthfulQA和MMLU数据集上验证模型，结果显示在零样本场景中显著提升了性能，展现出良好的有效性和推广潜力。

Abstract

This paper presents a supervised method for detecting hallucinations in Large Language Models. By analyzing token scores (logitis) across layers of the LLaMA model, we derive a small set, aiming to reduce overfitting, of features-including maximum, minimum, mean, standard deviation, an