BriefGPT.xyz
Ask
alpha
关键词
unsafe behaviors
搜索结果 - 2
LLM 驱动的机器人存在歧视、暴力和非法行为风险
人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型(LLMs)作为机器人任务的一个有前景的资源,然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题,我们在几个高评
→
PDF
23 days ago
精调后保持 LLMs 一致性:提示模板的关键作用
本文研究了如何减轻模型由于微调引起的安全问题,通过对几个聊天模型进行广泛实验,发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要,并提出了 “纯微调,安全测试”(PTST)原则,即在没有安全提示的情况下微调模型,但在测试时使用它。
→
PDF
4 months ago
Prev
Next