模型对模型欺骗评估
提出了一种 benchmark 以衡量语言模型在生成答案时是否真实,测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型,发现最好的模型能够在 58%的问题上保持真实,建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。
Sep, 2021
这篇研究批判性地探究了人工智能欺骗的复杂领域,集中研究了大型语言模型的欺骗行为。目标是阐明这一问题,审查相关的论述,并深入探讨其分类和影响。对 AI 安全峰会 2023 和 LLMs 进行了评估,并强调了它们欺骗行为背后的多维偏见。文献综述包括了四种分类的欺骗行为:战略欺骗、模仿、谄媚和不忠诚的推理,以及它们所带来的社会影响和风险。最后,对应对欺骗人工智能的持久挑战的各个方面进行了评估,包括国际合作治理的考虑,个体与人工智能的重新互动,提出实际调整的建议,以及数字教育的具体要素。
Feb, 2024
通过对开放式新闻标题生成任务中的人类研究和模型评估,我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言,我们提供了证据表明,在用户有机会比较不同的回答时,模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而,当用户独立地看到回答时,这些增益消失,这表明人类在独立显示时平等地信任所有模型回答,包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。
Jun, 2024
本文提出并评估了六种深度学习模型,包括 BERT(和 RoBERTa),MultiHead Attention,co-attentions 和 transformers,结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能(+2.11%的准确率),并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。
Oct, 2022
语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法,通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估,与四种以前的越狱方法进行了比较,展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。
Jul, 2024
这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现,包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明,这些增强方法可以显著提升大语言模型的诚实性和帮助性,有望为开发更可靠的实际应用语言模型奠定基础。
Jun, 2024
基于一项新型电视游戏节目数据的分析,我们检验了在目标真相存在的情况下,人们辨别文本内容真实性的能力,显示了存在一类能够与人类具有相似真相检测性能的检测器模型,这一模型基于大型语言模型,通过学习可分辨线索来确定真相,该模型在很多情况下能够检测出人类无法察觉的欺骗语言线索,并为与算法的协作提供了可能,进而增强人类的真相检测能力。
Nov, 2023