对抗性和安全缩放问题生成

Oct, 2022

Adversarial and Safely Scaled Question Generation

Sreehari Sankar, Zhihang Dong

TL;DR该论文介绍了一种采用对抗性方法的问题生成系统，旨在解决问题生成中的扩展性和安全性问题，并提出了一种问题 - 回答系统来剪枝不可回答的问题并提高答案质量，实现了高效、安全、准确、生产就绪的问答系统。

Abstract

question generation has recently gained a lot of research interest, especially with the advent of large language models. In and of itself, question generation can be considered 'AI-hard', as there is a lack of unanimously agreed sense of what makes a question 'good' or 'bad'. In this p

question generation scaling problem safety adversarial approach question-answering system

发现论文，激发创造

仿人类提问：基于文本语料库的可扩展问答生成

本文提出了一种名为 ACS-QG 的问题生成系统，使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题 - 答案对，该系统超越了现有神经网络问题生成模型，并能从较少的数据中生成 280 万个高质量的问题 - 答案对。

Jan, 2020

从文本到多模态：对问答系统中对抗性示例生成的综合调查

本文对于整合对抗机器学习与问答系统的领域进行了综述，包括传统和多模态背景下的对抗性示例生成技术。通过系统分类，回顾了采用的技术，从传统问答模型出发，探索了基于规则的扰动和高级生成模型，并扩展了对多模态问答系统的研究，分析了各种方法，并研究了生成模型、序列到序列架构和混合方法。研究还对对抗性数据集、评估指标和防御策略进行了讨论，并呈现了关于对抗性问答的广泛文献资料。最后，本文还考虑了对抗性问题生成的未来发展方向，突出了可以促进在对抗性挑战环境下的文本和多模态问答系统的潜在研究方向。

Dec, 2023

用合成对抗数据生成提高问答模型的鲁棒性

本文提出一种使用合成对抗数据生成的方法来提高问题回答模型对人工对手的鲁棒性。通过将合成数据引入训练，成功地将对人工对手的鲁棒性提高了大约一倍。

Apr, 2021

多尺度匹配的社区问题回答选择对抗训练

本研究提出了一种针对社区问答的二分类（相关 / 不相关）策略，采用敌对训练框架缓解标签失衡问题，并使用生成模型迭代地抽样一组具有挑战性的负样本，最终提高模型预测性能。此外，我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之间的相关性。在 SemEval 2016 和 SemEval 2017 数据集上进行评估，结果表明该方法达到或接近最佳性能。

Apr, 2018

对抗性智力问答写作的新界面

通过引入一种收集对抗性人工编写的问题的界面，我们利用人类生成的数据来开发让机器更好应对复杂任务的对抗性数据集，这对于开发问答人工智能是至关重要的。我们的界面不仅为创新的 Quiz Bowl AI 项目 QANTA 收集训练数据，同时也是为问答系统未来对抗性数据收集的一个概念验证。

Mar, 2024

基于答案的对抗训练生成澄清问题

本文介绍了一种生成澄清问题的方法，该方法通过建模假设答案作为潜在变量来引导生成更有用的澄清问题，并在两个数据集上评估了其性能。

Apr, 2019

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

高风险可靠性的对抗训练

通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

May, 2022

无处不在的大型语言模型对动态对抗性问题生成的阻碍和加速

为了理解大型语言模型对敌对问题生成过程的影响，我们使用语言模型和检索模型丰富写作指导，提出新的衡量指标和激励机制，以提出好的、具有挑战性的问题，并展示了一个新的敌对问题数据集。

Jan, 2024

为 TableQA 生成语义上有效的对抗性问题

本文提出 SAGE（Semantically valid Adversarial GEnerator），一种用于 TableQA 白盒攻击的 Wasserstein 序列到序列模型，结合最小风险训练、SIMILE 和实体去词化，在保留原问题含义的情况下，利用 Gumbel-Softmax 来融合敌对损失进行端到端训练，证明了 SAGE 在语义合理性和流畅度上优于现有的本地攻击模型，同时取得了良好的攻击成功率，并且演示了使用 SAGE 增强数据的对抗训练可以提高 TableQA 系统的性能和鲁棒性。

May, 2020