对抗性和安全缩放问题生成
本文提出了一种名为 ACS-QG 的问题生成系统,使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题 - 答案对,该系统超越了现有神经网络问题生成模型,并能从较少的数据中生成 280 万个高质量的问题 - 答案对。
Jan, 2020
本文对于整合对抗机器学习与问答系统的领域进行了综述,包括传统和多模态背景下的对抗性示例生成技术。通过系统分类,回顾了采用的技术,从传统问答模型出发,探索了基于规则的扰动和高级生成模型,并扩展了对多模态问答系统的研究,分析了各种方法,并研究了生成模型、序列到序列架构和混合方法。研究还对对抗性数据集、评估指标和防御策略进行了讨论,并呈现了关于对抗性问答的广泛文献资料。最后,本文还考虑了对抗性问题生成的未来发展方向,突出了可以促进在对抗性挑战环境下的文本和多模态问答系统的潜在研究方向。
Dec, 2023
本研究提出了一种针对社区问答的二分类(相关 / 不相关)策略,采用敌对训练框架缓解标签失衡问题,并使用生成模型迭代地抽样一组具有挑战性的负样本,最终提高模型预测性能。此外,我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之间的相关性。在 SemEval 2016 和 SemEval 2017 数据集上进行评估,结果表明该方法达到或接近最佳性能。
Apr, 2018
通过引入一种收集对抗性人工编写的问题的界面,我们利用人类生成的数据来开发让机器更好应对复杂任务的对抗性数据集,这对于开发问答人工智能是至关重要的。我们的界面不仅为创新的 Quiz Bowl AI 项目 QANTA 收集训练数据,同时也是为问答系统未来对抗性数据收集的一个概念验证。
Mar, 2024
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展(1)对抗成功性:攻击是否欺骗了分类器?(2)维度多样性:攻击是否代表了以前未见的伤害类型?通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估,发现它们存在局限性:词汇扰动攻击无法欺骗分类器,而基于提示的 LLM 攻击具有更高的对抗成功性,但缺乏维度多样性。即使是我们最有效的基于提示的方法,仍然只在攻击的以前未见的伤害维度上成功了 5%的时间。自动发现攻击的新的有害维度至关重要,并且在这个新任务上未来研究有巨大的潜力。
Jun, 2024
为了理解大型语言模型对敌对问题生成过程的影响,我们使用语言模型和检索模型丰富写作指导,提出新的衡量指标和激励机制,以提出好的、具有挑战性的问题,并展示了一个新的敌对问题数据集。
Jan, 2024
本文提出 SAGE(Semantically valid Adversarial GEnerator),一种用于 TableQA 白盒攻击的 Wasserstein 序列到序列模型,结合最小风险训练、SIMILE 和实体去词化,在保留原问题含义的情况下,利用 Gumbel-Softmax 来融合敌对损失进行端到端训练,证明了 SAGE 在语义合理性和流畅度上优于现有的本地攻击模型,同时取得了良好的攻击成功率,并且演示了使用 SAGE 增强数据的对抗训练可以提高 TableQA 系统的性能和鲁棒性。
May, 2020