BriefGPT.xyz
Ask
alpha
关键词
toxic prompts
搜索结果 - 3
OR-Bench:大型语言模型的拒绝过度基准
通过自动生成大规模的看似有害的提示,该研究提出了 OR-Bench,首个大规模的拒绝基准,用于度量 25 个热门 LLM 模型的过度拒绝。
PDF
a month ago
毒性检测自由
使用 LLMs 自身提取的信息,通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距,我们提出了一种新的毒性侦测模型 MULI,它不需要训练或额外计算成本,并基于首个响应标记的 logits 构建了一个更强大的
→
PDF
a month ago
由专家指导的毒性符号消除以实现无偏生成
通过使用 DESM 提供的网站,您可以在输入框中输入您的想法或问题,然后 DES 将基于这个输入提供一个自动生成的并针对您输入的文本进行适当恢复或继续的建议。
PDF
a month ago
Prev
Next