Mar, 2025

更安全还是更幸运?大型语言模型作为安全评估者对伪影不具鲁棒性

TL;DR本研究探讨了大型语言模型(LLM)在安全评估中的可靠性,发现其对输入伪影的敏感性导致偏见,显著影响了对内容安全性的评价。研究提出了基于多个模型的评审方法,以提高评估的一致性和与人类判断的对齐,但伪影敏感性仍然存在,凸显了亟需更为多样化和抗伪影的方法以确保可靠的安全评估。