- 文本分类器的对抗攻击的约束执行奖励
通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。
- ACL构建鲁棒的毒性预测模型
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap - 通过大型语言模型的知识蒸馏促进开放领域对话系统中的淫秽文本检测
使用大型语言模型的知识蒸馏技术,开发具有实用性和成本效益的色情文本检测器,分析人机交互对话中的色情内容以及开发用于监测对话的数据集和文本分类器。
- KDD对抗文本净化:防御的大型语言模型方法
通过利用大型语言模型(LLMs)的生成能力,我们提出了一种新颖的对抗文字净化方法,以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本,从而实现语义相似且正确分类的净化示例恢复。在各种分类器上,我们的方法表现出卓越的性能,在攻击下平均 - ACL利用类别概率进行黑盒句级攻击
使用类概率以进行黑盒子句级攻击的新算法,通过与基准模型和基准数据集的比较进行全面评估,研究了类概率在攻击成功方面的有效性,并探讨了在黑盒子句级攻击中使用类概率是否值得或实用。
- 基于因果结构的文本 OOD 泛化的增强
通过使用反事实数据增强、基于数据的因果结构模拟对虚假特征的干预,以及采用大型语言模型来表示文本的条件概率,该论文介绍了一种改善文本分类器鲁棒性的方法,并通过在医疗叙述和半合成数据上进行广泛实验,证明了该方法对改善模型的预测能力具有积极效果。
- 语言模型作为反事实解释模块:ChatGPT 能否解释黑盒文本分类器?
使用大型语言模型作为反事实解释模块,通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体,显示了在不同设置下这些模型的性能差异,其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系 - ICML基于辅助偏好学习的文本分类器优化
通过进行输入文本间的偏好学习,利用人为标注的 NLP 数据集,提供了用于提高文本分类器的理想补充。
- ACL不需重新训练,只需改写:通过改写文本来抵御对抗样本
ATINTER 是一种模型,可以截获和学习重写对下游文本分类器产生对抗性影响的输入,有效提供更好的对抗性鲁棒性。
- 借助真实样本的渐进邻域逼近解释文本分类器
针对文本分类器的局部模型无关解释,提出了一种渐进逼近方法,它通过两阶段插值使用反事实来完善待解释决策的领域,从而提高了邻域质量。通过试验,证明了该方法的有效性。
- 解释的力量:走向自动去偏见的仇恨言论检测
本研究提出了一种自动的误用检测器,该检测器依赖于解释方法来检测潜在的偏见,并基于此构建了端到端的去偏扭框架,适用于文本分类器而无需任何外部资源。
- 一种基于概率差异引导的束搜索文本对抗攻击的上下文感知方法
提出了一种名为 PDBS 的新的上下文感知的文本对抗攻击模型,它使用概率差异对攻击路径进行选择,并使用波束搜索来寻找成功的攻击路径,实验证明 PDBS 在一系列评估指标上优于以前的最佳模型,特别是攻击成功率提高了 19.5%。
- ACL度量指导的对抗式句子生成
本文提出了一个 rewrite and rollback(R&R)框架,该框架通过优化批判分数来改进对抗样例的质量,结合流畅度、相似性和错分类度量,提高了对抗样例的质量,并在 5 个代表性数据集和 3 种分类器架构上进行了评估,攻击成功率分 - EMNLP在线教授评测中的物化语言检测
该研究使用两个监督文本分类器来检测教授评论中的客体化言论,并利用该模型在规模上跟踪客体化发言。研究发现,教师评论中存在一定程度的客体化言论,该问题受到性别、评价网站界面设计等影响因素。
- EMNLP人机协同调试深度文本分类器
提出了一个名为 FIND 的框架,使其能通过禁用无关的隐藏特征来调试在不同类型的不完美数据集下训练的 CNN 文本分类器,从而改进文本分类器。
- EMNLP鲁棒文本分类中的虚假相关性识别
本文提出了一种区分文本分类器中误导性和真实关联的方法,将其作为监督分类问题,并利用来自治疗效应估计器的特征,通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验,表明这种方法提高了最坏情况下的准确性和更好的分类 - ACL使用自然触发器的通用文本对抗攻击
利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术,对现代文本分类器进行了对抗攻击,生成的词组比先前模型更接近自然的英语短语,并能在被加入到输入文本后成功混淆分类器,并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为 - ACL具有鉴别性聚类嵌入的小型文本分类器
通过学习硬词聚类并使用 Gumbel-Softmax 分布最大化潜在聚类并最小化任务误差,我们减少了神经自然语言处理方法中嵌入参数的模型大小。我们提出了一些变体,可以选择性地为单词分配额外的参数,从而在仍然保持参数有效的情况下进一步提高准确 - 可解释的神经预测与可微分的二元变量
通过两个神经网络模型(一个潜在模型选择基本元素和一个分类器学习基本元素),使文本分类器更易解释并提供解释。通过混合离散和连续的交互方式,在不使用 REINFORCE 的情况下,实现了提取基本元素。
- EMNLP使用文本分类器进行因果推断的挑战
本研究探讨了文本分类器在因果推断中的应用,研究结果表明其可用于基于语言数据的因果分析,并讨论了使用文本数据进行因果推断的机会和挑战。