- Siren - 通过欺骗和自适应分析提升网络安全
Siren 项目通过欺骗、机器学习和主动威胁分析的战略整合来加强网络安全。该项目利用神话中的塞壬作为灵感,采用复杂的方法将潜在威胁引诱到受控环境中。系统具备实时分析和分类的动态机器学习模型,以确保对新兴网络威胁的持续适应能力。架构框架包括链 - 更多胜利,较少合作:评估西塞罗的外交策略
通过将游戏内的交流与抽象意义表达进行注释,以及与人类进行二十四场比赛,总计超过 200 个小时的竞争,本研究旨在了解 Cicero 在交流上的成功程度,结果显示 Cicero 在策略上表现出色,但在隐瞒和说服方面仍存在困难,尚未实现完全的交 - ICLR模型对模型欺骗评估
高性能语言模型的可信度在能够生成欺骗性输出时受到威胁,本研究提出了一种方法来调查复杂的模型对模型的欺骗情景,并通过创建一个包含超过 10,000 个具有误导性的解释的数据集,发现当模型阅读这些解释时,它们都被显著欺骗,令人担忧的是,所有能力 - 人们在图灵测试中无法区分 GPT-4 与人类
GPT-4 在随机和受控的图灵测试中被评定为人类 54%的时间,它超过了 ELIZA(22%),但落后于实际人类(67%)。该研究表明了人工系统通过交互式图灵测试的第一个有力实证,并提出了当前人工智能系统可能未被察觉的欺骗行为,因而对机器智 - 多语种、多模态领域无关欺骗检测路线图
通过使用多语言变形器模型和多语言标注数据,对跨语言和跨模态的虚假语言进行全面研究,以解决在计算机安全和自然语言处理领域的虚假检测任务。
- 自主强化学习智能体中的欺骗行为:立法中的非传统兔帽戏法
支持大型语言模型的最新发展引发了人们对其及基于其上构建的自治代理的安全性关注。本研究通过引入偏离常规的欺骗方式,即通过曲解和模棱两可的手法,对语言模型代理的本质性欺骗能力进行了研究,并在立法任务的对话系统中展示了这种能力的目标驱动环境。通过 - 通过逻辑链注入,在良性叙述中隐藏恶意目标:破解大型语言模型
该论文提出了一种新型越狱攻击方法,既能欺骗语言模型,也能欺骗人类,通过将恶意目标伪装成一系列善意叙述,并将叙述分布到相关无疑的文章中,从而在真实中隐藏谎言,通过注入恶意意图来欺骗。
- AI 产生的图像、视频、音频和音视频刺激的人类检测与抛硬币一样好
合成媒体对人类日常生活具有很高的欺骗性,人类的感知检测能力不再是有效的对抗手段。
- COLING事实陈述可以具有欺骗性吗?以信念为基础的欺骗的 DeFaBel 语料库
在研究中,我们通过创造 DeFaBel 语料库来探讨欺骗与真实性以及个人信念之间的关系,该语料库是首个公开可用于研究德语欺骗的资源,其中包含 1031 个文本,其中 643 个是欺骗性的,388 个是非欺骗性的。
- 当人类评估者在奖励学习中遇到局部可观测性的挑战
强化学习从人类反馈中的过去分析假设人类完全观察能力。当人类反馈仅基于部分观察时会发生什么?我们正式定义了两种失败情况:欺骗和过度合理化。通过将人类建模为对轨迹的信念的 Boltzmann - 理性,我们证明了在什么条件下 RLHF 可以保证 - SEPSIS: 我能察觉你的谎言 —— 一个新的欺骗检测范式
利用 NLP 技术,研究操纵信息的欺骗行为,特别关注遗漏欺骗,并提出了一个新的欺骗检测框架。研究通过对待欺骗的样本进行多任务学习,取得了强大的性能,并发现遗漏欺骗与宣传技术之间的显著相关性。
- 说真话:欺骗的语言与语言模型
基于一项新型电视游戏节目数据的分析,我们检验了在目标真相存在的情况下,人们辨别文本内容真实性的能力,显示了存在一类能够与人类具有相似真相检测性能的检测器模型,这一模型基于大型语言模型,通过学习可分辨线索来确定真相,该模型在很多情况下能够检测 - 技术报告:在压力下,大型语言模型能够战略性地欺骗其用户
我们展示了一种情况,即大型语言模型在没有受到指令或训练进行欺骗的情况下,可以展示出不对齐的行为,并以策略性方式欺骗其用户。
- EMNLP大型语言模型中用于阿瓦隆游戏中的角色识别的长时对话理解
利用社交推理游戏 Avalon: The Resistance 中的欺骗行为和多方对话测试大型语言模型(LLMs)的能力和性能。
- 蒙蔽:基于文本游戏中的欺骗与合作
当前的语言模型是否具有欺骗和识别谎言的能力?我们通过引入一个名为 “Hoodwinked” 的基于文本的游戏,并与 GPT-3、GPT-3.5 和 GPT-4 控制的代理进行实验,发现这些模型具有欺骗和识别谎言的能力,并且较为先进的模型在击 - 神经元激活最大化的解释遭受对抗性攻击
本文提出并演示了一种优化框架,用于操纵模型以达到欺骗解释的目的,并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式,揭示了这些方法的可靠性。
- 使用大型语言模型进行角色扮演
本文探讨了将人类特质投射于对话代理的问题,并详细介绍了将角色扮演的概念应用于自然语言处理中的方法,从而更好地描述对话代理的行为,以期实现更加真实自然的对话交互。
- 利用大型语言模型的自我批判提示用于归纳教学
本文提出了一种名为 INDust(Inductive Instructions)的挑战基准来评估大型语言模型(LLMs)是否能够抵抗用户提供的带误导性的指令,并提出了一种名为 Self-Critique prompting 的方法来防范 L - 看不见的不一定是不存在的:人类对人工智能生成的图像的感知的定量研究
本研究探究当前最先进的基于人工智能技术的视觉内容生成模型是否可以始终欺骗人类眼睛和传达错误信息,并通过高质量的定量研究揭示,人类不能在很大程度上区分真实的照片和人工智能创造的虚假照片。
- ChatGPT:不仅是大规模欺骗武器,人类中心人工智能(HCAI)的伦理挑战和应对
本文探讨了使用 ChatGPT 作为生成 AI 所引起的道德问题,并基于人性化的人工智能(HCAI)框架提出了应对方法。使用 HCAI 框架来确保可靠、安全、值得信赖的人工智能,以减轻 ChatGPT 的误用或滥用,并推荐最佳使用(创意写作