BriefGPT.xyz
大模型
Ask
alpha
关键词
text safety
搜索结果 - 2
潜在破解:用于评估大型语言模型文本安全和输出鲁棒性的基准测试
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越
→
PDF
a year ago
在自然语言系统中减少具有隐蔽性危险的文本
本文研究问题是智能技术在文本安全方面的应用,讨论不同类型的文字如何可能引起身体伤害,特别是一类未被充分探讨的隐蔽性不安全文本。进一步分析了该类别的子类别及解决方案,强调这个隐藏而危险的问题需要有关方面和监管机构优先考虑。本文提出了缓解方案,
→
PDF
2 years ago
Prev
Next