针对自然语言高级智能的对抗性语言游戏
我们提供了这是我们所知的第一次对广泛形式的对抗性团队博弈进行计算研究。通过分别定义三种不同的通讯能力场景,我们研究了团队成员之间的通讯对解决方案的影响,同时也考虑了一些计算复杂性问题。最终通过实证研究来展示其可扩展性和不同通讯能力场景下的不足效率。
Nov, 2017
本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制,提出了一种攻击和防御机制针对对话系统,能够自动触发系统生成毒性语言,同时保持谈话流畅度,并证明了该防御机制不仅有效避免了毒性语言生成,而且可以推广到对话系统之外的语言生成模型。
May, 2022
针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。
Jul, 2022
本文提出一种基于Mixed-strategy Adversarial Training algorithm(MAT)的新型预训练语言模型微调方法,通过引入Nash均衡和熵镜像下降算法,并在大规模预训练模型(如BERT和RoBERTa)上进行了广泛的实验验证,表明MAT在GLUE和ANLI基准测试中具有更好的泛化性和鲁棒性。
Jun, 2023
当前的语言模型是否具有欺骗和识别谎言的能力?我们通过引入一个名为“Hoodwinked”的基于文本的游戏,并与GPT-3、GPT-3.5和GPT-4控制的代理进行实验,发现这些模型具有欺骗和识别谎言的能力,并且较为先进的模型在击败其他模型方面更加有效。
Jul, 2023
用于量化 LLMs 的多样化攻击策略和优化方法,并通过构建红队和蓝队语言模型之间的对抗游戏理论基础,提出一种无需人工标注的红队技术,有效提升了大型语言模型的安全性。
Sep, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过使用单词猜谜游戏评估LLM的智能性能,本研究提出了DEEP和SpyGame两个评估框架,能够有效评估各种LLM的能力,并捕捉其适应新情境和战略性沟通的能力。
Oct, 2023
在一个叫做Adversarial Taboo的对抗性语言游戏中,我们探索了大型语言模型(LLMs)的自我训练过程。通过强化学习和自我博弈,我们观察到LLMs在广泛的推理基准上表现出统一的提升,并且通过迭代采用自我博弈过程可以不断提升LLM的推理能力。
Apr, 2024
在这项研究中,我们将对抗性攻击结果视为模型的一个新(未见过的)领域,并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务,其中多轮自然语言对话是前提,通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法,并实施了一些微调策略,并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后,通过讨论自然语言处理中现实世界的对抗攻击,展示了我们工作的重要性。
May, 2024