BriefGPT.xyz
Ask
alpha
关键词
aligning llms
搜索结果 - 2
大规模语言模型背景注入中的隐蔽而持久的不对齐
通过背门注入,在大型语言模型上进行隐秘而持续的非对准操作,可以成功通过安全评估,同时对抗重新对齐防御。
PDF
8 months ago
EMNLP
大型语言模型如何捕捉不断变化的世界知识?近期进展综述
对大型语言模型(LLMs)与不断变化的世界知识进行对齐的最新进展进行了全面回顾,分类研究作品并提供深入比较和讨论,同时讨论现有挑战并突出未来的研究方向。
PDF
9 months ago
Prev
Next