Jan, 2025

幻觉分类器CHAIR-Classifier的改进

TL;DR本研究针对大型语言模型中的幻觉检测问题,提出了一种监督学习方法。通过分析LLaMA模型中各层的标记分数,提取出一小组特征以减少过拟合,使用逻辑回归进行分类,并在TruthfulQA和MMLU数据集上验证模型,结果显示在零样本场景中显著提升了性能,展现出良好的有效性和推广潜力。