BriefGPT.xyz
Ask
alpha
关键词
vulnerable
搜索结果 - 4
通过数据整理提高安全对齐的大型语言模型鲁棒性
我们提出了一种数据筛选框架,以增强大语言模型的安全对齐性,通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中,我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练,观察到在安全对齐方面对有害查询的响应性明显改
→
PDF
a month ago
ICML
基于 ChatGPT 作弊的测试题漏洞研究
ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答,并分析了不同类型问题中 ChatGPT 回答准确度较
→
PDF
5 months ago
AAAI
一种基于长期梯度记忆的新型集成对抗攻击
深度神经网络易受到对抗性攻击威胁。
PDF
5 years ago
来自计算限制的对抗性示例
高维度分类器为何易受到 “对抗性” 扰动?本文中将阐述这种现象可能不是由于信息论的限制,而是由于计算约束所引起的。同时探讨了分类任务的一种特殊情况,即在高维空间中对于对抗扰动较大的学习是容易的,但是具有计算难度的。这种例子带来了对于经典学习
→
PDF
6 years ago
Prev
Next