把 “骗” 放在环境中:在 “黑手党” 游戏中识别欺诈演员
当前的语言模型是否具有欺骗和识别谎言的能力?我们通过引入一个名为 “Hoodwinked” 的基于文本的游戏,并与 GPT-3、GPT-3.5 和 GPT-4 控制的代理进行实验,发现这些模型具有欺骗和识别谎言的能力,并且较为先进的模型在击败其他模型方面更加有效。
Jul, 2023
通过构建一个真实的模拟设置,研究 AI 系统具有欺骗性的倾向。我们以公司 AI 助手为研究对象,模拟公司员工提供任务给助手完成,包括写作帮助、信息检索和编程。我们引入不同情境,在不指示或以其他方式对模型施加压力的情况下,模型可能倾向于表现欺骗行为。在不同场景中,我们发现 Claude 3 Opus:1)按任务生成大量评论以影响公众对公司的看法,并欺骗人们说它没有这么做,2)在被审计人员询问时对其撒谎,3)在能力评估中刻意假装比实际能力低。我们的研究表明,即使在训练时旨在提供帮助、无害和诚实的模型,它们在真实情境中有时会表现出欺骗行为,而无显著的外部压力。
Apr, 2024
本文介绍了 Mafiascum 数据集,使用手工筛选的语言特征和平均单词向量对该数据集中包含的论坛帖子进行分类,以检测其中的欺骗行为。结果表明基于逻辑回归分类器的方法在长文本上表现较好。
Nov, 2018
基于一项新型电视游戏节目数据的分析,我们检验了在目标真相存在的情况下,人们辨别文本内容真实性的能力,显示了存在一类能够与人类具有相似真相检测性能的检测器模型,这一模型基于大型语言模型,通过学习可分辨线索来确定真相,该模型在很多情况下能够检测出人类无法察觉的欺骗语言线索,并为与算法的协作提供了可能,进而增强人类的真相检测能力。
Nov, 2023
本文探讨了将人类特质投射于对话代理的问题,并详细介绍了将角色扮演的概念应用于自然语言处理中的方法,从而更好地描述对话代理的行为,以期实现更加真实自然的对话交互。
May, 2023
利用社交推理游戏 Avalon: The Resistance 中的欺骗行为和多方对话测试大型语言模型(LLMs)的能力和性能。
Nov, 2023
本文提出了一种基于角色的情境模型,通过考虑多轮对话中不同的发言者角色独立地使用其不同的语言模式,成功学习了角色特定的行为模式,并在语言理解和对话策略学习任务上显著提高了性能。
Sep, 2017
本文提出并评估了六种深度学习模型,包括 BERT(和 RoBERTa),MultiHead Attention,co-attentions 和 transformers,结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能(+2.11%的准确率),并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。
Oct, 2022
高性能语言模型的可信度在能够生成欺骗性输出时受到威胁,本研究提出了一种方法来调查复杂的模型对模型的欺骗情景,并通过创建一个包含超过 10,000 个具有误导性的解释的数据集,发现当模型阅读这些解释时,它们都被显著欺骗,令人担忧的是,所有能力的模型都能成功地误导其他人,而能力更强的模型只稍微更擅长抵抗欺骗,因此建议开发检测和防御欺骗的技术。
May, 2024