BriefGPT.xyz
Ask
alpha
关键词
safety and robustness
搜索结果 - 2
微小的改进引发韧性:朝着高效的前缀模型抵御 LLM 红队行动
通过介绍基于 LLM 的哨兵模型,该论文提出一种即插即用的前缀模块,通过添加少量的 (<30) 令牌有效地减少目标 LLM 输出中的有毒内容,克服参数效率和模型可访问性的限制。我们采用交错训练方案,使用近端策略优化 (PPO) 来动态优化红
→
PDF
2 months ago
贝叶斯神经网络的概率式到达 - 避免
本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题,包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率,以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。
PDF
9 months ago
Prev
Next