Nov, 2023

开源语言模型的可信度 —— 恶意示范中的评估揭示了它们的脆弱性

TL;DR大型语言模型在开源方面取得的快速进展明显推动了人工智能的发展。本文通过对毒性、公平性、对抗性可信度攻击等八个不同方面的细致考察,提出了一种基于言辞链的引导策略,显示出该攻击策略的高效性以及在不同方面的应用。此外,研究还发现,在一般自然语言处理任务中表现较好的模型并不总是具有较高的可信度,而较大的模型实际上更容易受到攻击。还发现经过指示调优的模型更容易受到攻击,尽管对安全线性模型进行修正可以有效减轻对抗性可信度攻击。