triggers | BriefGPT - AI 论文速递

关键词triggers

搜索结果 - 4

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾
大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马
PDF2 months ago
从统计学角度剖析毒化后门攻击
对于机器学习中的黑门攻击，本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性，回答了一系列基本但以前未被充分探讨的问题，包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模
PDF9 months ago
通过隐写和正则化对深度神经网络进行不可见的后门攻击
该论文通过在深度神经网络中嵌入不可察觉的触发器，实现了一种无形的后门攻击，旨在欺骗模型产生意外行为，同时提出了两种评估指标，评估攻击成功率、功能性和不可见性，并证明此方法可以有效地防范目前最先进的后门检测方法，例如神经网络清理和 TABOR
PDF5 years ago
Twitter 趋势的实时分类
本文研究社交媒体上的热点话题，提出了四种触发器类型以及一种基于社交特征的分类方法，能够有效分类趋势并提供给终端用户，帮助新闻机构及时发现突发新闻。
PDF10 years ago