在线教授评测中的物化语言检测
通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。
May, 2024
利用 1484 个在线评论的数据集,作者使用深度学习和机器学习技术中的逻辑回归算法,确定了预测食物质量的最准确方法。该研究提供了有价值的洞察力,帮助用户决定是否订购食物。
May, 2024
当发布新产品时,企业面临市场接受程度的不确定性。在线评论不仅为消费者提供宝贵信息,也为企业提供了调整产品特性(包括售价)的机会。本文考虑了带有在线评论的定价模型,其中产品的质量不确定,卖方和买方通过贝叶斯方法更新信念以做出购买和定价决策。我们将卖方的定价问题建模为基本的赌博机问题,并展示了与著名的卡塔兰数之间的密切关系,使我们能够有效计算卖方的整体未来折扣奖励。利用这个工具,我们在产品质量的有效学习概率方面分析和比较了最优静态和动态定价策略。
Apr, 2024
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略,实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计,ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明,SOTA 的毒性文本分类器确实容易受到这种攻击的影响,在多标签情况下攻击成功率超过 98%。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性,即使面对未知的攻击。
Apr, 2024
使用大型语言模型的知识蒸馏技术,开发具有实用性和成本效益的色情文本检测器,分析人机交互对话中的色情内容以及开发用于监测对话的数据集和文本分类器。
Mar, 2024
通过利用大型语言模型(LLMs)的生成能力,我们提出了一种新颖的对抗文字净化方法,以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本,从而实现语义相似且正确分类的净化示例恢复。在各种分类器上,我们的方法表现出卓越的性能,在攻击下平均提高了 65% 的准确率。
Feb, 2024
使用类概率以进行黑盒子句级攻击的新算法,通过与基准模型和基准数据集的比较进行全面评估,研究了类概率在攻击成功方面的有效性,并探讨了在黑盒子句级攻击中使用类概率是否值得或实用。
Feb, 2024
通过使用大规模语言模型和图像模型构建 AiGen-FoodReview 数据集,本论文提供了检测和识别机器生成的虚假评论的方法,该方法能在单模态和多模态情况下取得接近真实数据性能的可扩展并可解释的检测结果。
Jan, 2024
通过使用反事实数据增强、基于数据的因果结构模拟对虚假特征的干预,以及采用大型语言模型来表示文本的条件概率,该论文介绍了一种改善文本分类器鲁棒性的方法,并通过在医疗叙述和半合成数据上进行广泛实验,证明了该方法对改善模型的预测能力具有积极效果。
Oct, 2023
使用大型语言模型作为反事实解释模块,通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体,显示了在不同设置下这些模型的性能差异,其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统,潜在地减少人工工作量。
Sep, 2023