Apr, 2025
通过注意力图的拓扑差异检测大型语言模型中的幻想
Hallucination Detection in LLMs via Topological Divergence on Attention
Graphs
TL;DR本研究针对大型语言模型中的幻觉,即生成事实不准确内容的问题,提出了TOHA,这是一种基于拓扑的方法来检测幻想。通过分析提示和响应子图的拓扑差异,研究发现特定注意力头的差异值与幻想输出存在一致的关联。研究结果表明,拓扑结构分析为大型语言模型的事实可靠性提供了一种有效的指示方法。