BriefGPT.xyz
Ask
alpha
关键词
llm alignment methods
搜索结果 - 3
通过系统消息概括与数千个偏好进行对齐
用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法,通过多方面的数据集和用户指令训练模型,该模型在各项测试中表现优于其他大型语言模型。
PDF
a month ago
使用投影梯度下降攻击大规模语言模型
通过控制连续放松引入的误差,我们改进了投影梯度下降(PGD)对连续放松输入提示的攻击方法,实现了与现有离散优化相同的毁灭性攻击结果,PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。
PDF
5 months ago
演化社会规范中的代理对齐
基于大型语言模型的代理人在人类生产和生活的各个领域中日益普及,本研究提出一种名为 EvolutionaryAgent 的代理人进化与对齐的演化框架,将代理人对齐转化为适者生存的进化选择过程,实验证明 EvolutionaryAgent 能在
→
PDF
6 months ago
Prev
Next