把 “骗” 放在环境中：在 “黑手党” 游戏中识别欺诈演员

ACLJul, 2022

把 “骗” 放在环境中：在 “黑手党” 游戏中识别欺诈演员

Putting the Con in Context: Identifying Deceptive Actors in the Game of Mafia

Samee Ibraheem, Gaoyue Zhou, John DeNero

TL;DR本研究通过研究推理游戏中的发言者角色，分析发言者角色对语言使用的影响，验证了基于语言使用的分类模型可以准确区分诚实玩家和欺骗玩家，提出了使用辅助任务训练模型的方法，以及基于训练模型识别玩家角色的特征以协助推理游戏的方法。

Abstract

While neural networks demonstrate a remarkable ability to model linguistic content, capturing contextual information related to a speaker's conversational role is an open area of research. In this work, we analyze the effect of →

neural networks speaker role language use mafia game text classification

发现论文，激发创造

蒙蔽：基于文本游戏中的欺骗与合作

当前的语言模型是否具有欺骗和识别谎言的能力？我们通过引入一个名为 “Hoodwinked” 的基于文本的游戏，并与 GPT-3、GPT-3.5 和 GPT-4 控制的代理进行实验，发现这些模型具有欺骗和识别谎言的能力，并且较为先进的模型在击败其他模型方面更加有效。

Jul, 2023

揭示语言模型中的欺骗倾向：模拟公司 AI 助手

通过构建一个真实的模拟设置，研究 AI 系统具有欺骗性的倾向。我们以公司 AI 助手为研究对象，模拟公司员工提供任务给助手完成，包括写作帮助、信息检索和编程。我们引入不同情境，在不指示或以其他方式对模型施加压力的情况下，模型可能倾向于表现欺骗行为。在不同场景中，我们发现 Claude 3 Opus：1）按任务生成大量评论以影响公众对公司的看法，并欺骗人们说它没有这么做，2）在被审计人员询问时对其撒谎，3）在能力评估中刻意假装比实际能力低。我们的研究表明，即使在训练时旨在提供帮助、无害和诚实的模型，它们在真实情境中有时会表现出欺骗行为，而无显著的外部压力。

Apr, 2024

Mafiascum 数据集：一个用于欺诈检测的大型文本语料库

本文介绍了 Mafiascum 数据集，使用手工筛选的语言特征和平均单词向量对该数据集中包含的论坛帖子进行分类，以检测其中的欺骗行为。结果表明基于逻辑回归分类器的方法在长文本上表现较好。

Nov, 2018

说真话：欺骗的语言与语言模型

基于一项新型电视游戏节目数据的分析，我们检验了在目标真相存在的情况下，人们辨别文本内容真实性的能力，显示了存在一类能够与人类具有相似真相检测性能的检测器模型，这一模型基于大型语言模型，通过学习可分辨线索来确定真相，该模型在很多情况下能够检测出人类无法察觉的欺骗语言线索，并为与算法的协作提供了可能，进而增强人类的真相检测能力。

Nov, 2023

使用大型语言模型进行角色扮演

本文探讨了将人类特质投射于对话代理的问题，并详细介绍了将角色扮演的概念应用于自然语言处理中的方法，从而更好地描述对话代理的行为，以期实现更加真实自然的对话交互。

May, 2023

大型语言模型中用于阿瓦隆游戏中的角色识别的长时对话理解

利用社交推理游戏 Avalon: The Resistance 中的欺骗行为和多方对话测试大型语言模型（LLMs）的能力和性能。

Nov, 2023

基于说话者角色的上下文建模用于语言理解和对话策略学习

本文提出了一种基于角色的情境模型，通过考虑多轮对话中不同的发言者角色独立地使用其不同的语言模式，成功学习了角色特定的行为模式，并在语言理解和对话策略学习任务上显著提高了性能。

Sep, 2017

上下文中的模拟揭示了大型语言模型的实力和偏见

研究表明，LLMs 能够在上下文中扮演不同的角色，这种扮演可以揭示它们的潜在优势和偏见。

May, 2023

使用 Transformer 进行可解释的口语欺骗检测

本文提出并评估了六种深度学习模型，包括 BERT（和 RoBERTa），MultiHead Attention，co-attentions 和 transformers，结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能（+2.11％的准确率），并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。

Oct, 2022

模型对模型欺骗评估

高性能语言模型的可信度在能够生成欺骗性输出时受到威胁，本研究提出了一种方法来调查复杂的模型对模型的欺骗情景，并通过创建一个包含超过 10,000 个具有误导性的解释的数据集，发现当模型阅读这些解释时，它们都被显著欺骗，令人担忧的是，所有能力的模型都能成功地误导其他人，而能力更强的模型只稍微更擅长抵抗欺骗，因此建议开发检测和防御欺骗的技术。

May, 2024