Jan, 2024

GOAT-Bench: 多模态大型模型的安全洞察力通过基于模因的社交滥用

TL;DR社交媒体的指数增长深刻改变了信息的创造、传播和吸收方式,在数字时代超过以往任何时候。遗憾的是,这种爆炸也引发了网络违规使用表情包的显著增加。针对包括隐性仇恨言论、性别歧视和网络欺凌等主题的超过 6k 个多样表情包,本文全面研究了各种大型多模型(LMMs)(如 GPT-4V)识别和应对表情包中微妙方面的社交虐待的能力。我们引入了全面的 GOAT-Bench 表情包基准,并利用 GOAT-Bench 深入研究了 LMMs 准确评估仇恨、厌女症、冒犯、讽刺和有害内容的能力。我们广泛使用各种 LMMs 进行的实验表明,当前模型仍然存在安全意识不足,对各种隐性虐待形式缺乏敏感性。我们认为这种不足对于实现安全人工智能构成了重要阻碍。GOAT-Bench 和相应资源可在该 https URL 上公开访问,为这个重要领域的持续研究做出贡献。