BriefGPT.xyz
Ask
alpha
关键词
inference-time methods
搜索结果 - 2
多智能体协作攻击:通过辩论研究大规模语言模型协作中的对抗攻击
评估模型网络在对抗影响下通过辩论进行合作时的行为,探索推理时间方法生成更令人信服的论点,并评估基于提示的缓解作为一种防御策略的潜力。
PDF
16 days ago
LITO: 可学习的真实性优化干预
LITO 提出了一种可学习的干预方法,通过识别特定语境下的最佳干预强度,提高真实性,并在高度不确定时选择最准确的回答或拒绝回答。
PDF
2 months ago
Prev
Next