针对自然语言高级智能的对抗性语言游戏

Nov, 2019

针对自然语言高级智能的对抗性语言游戏

Adversarial Language Games for Advanced Natural Language Intelligence

Yuan Yao, Haoxi Zhong, Zhengyan Zhang, Xu Han, Xiaozhi Wang...

TL;DR该论文研究对抗性语言游戏及其在自然语言处理中的应用，提出Adversarial Taboo作为一个典型的挑战性语言游戏，分别考虑攻击和防御策略，并在多个基准攻击和防御策略的实验中，得到了有趣的和有前途的结果。

Abstract

While adversarial games have been well studied in various board games and electronic sports games, etc., such adversarial games remain a nearly blank field in natural language processing. As natural language is inherently an interactive game, we propose a challenging pragmatics game ca

发现论文，激发创造

广泛博弈对抗团队游戏的计算结果

我们提供了这是我们所知的第一次对广泛形式的对抗性团队博弈进行计算研究。通过分别定义三种不同的通讯能力场景，我们研究了团队成员之间的通讯对解决方案的影响，同时也考虑了一些计算复杂性问题。最终通过实证研究来展示其可扩展性和不同通讯能力场景下的不足效率。

Nov, 2017

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

MAT：对抗性Fine-tuning的混合策略博弈

本文提出一种基于Mixed-strategy Adversarial Training algorithm（MAT）的新型预训练语言模型微调方法，通过引入Nash均衡和熵镜像下降算法，并在大规模预训练模型（如BERT和RoBERTa）上进行了广泛的实验验证，表明MAT在GLUE和ANLI基准测试中具有更好的泛化性和鲁棒性。

Jun, 2023

蒙蔽：基于文本游戏中的欺骗与合作

当前的语言模型是否具有欺骗和识别谎言的能力？我们通过引入一个名为“Hoodwinked”的基于文本的游戏，并与GPT-3、GPT-3.5和GPT-4控制的代理进行实验，发现这些模型具有欺骗和识别谎言的能力，并且较为先进的模型在击败其他模型方面更加有效。

Jul, 2023

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

利用词语猜测游戏评估大型语言模型的智能

通过使用单词猜谜游戏评估LLM的智能性能，本研究提出了DEEP和SpyGame两个评估框架，能够有效评估各种LLM的能力，并捕捉其适应新情境和战略性沟通的能力。

Oct, 2023

自主对抗性语言游戏增强LLM推理能力

在一个叫做Adversarial Taboo的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到LLMs在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升LLM的推理能力。

Apr, 2024

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024