Dec, 2023

禁止事实:Llama-2中竞争目标的调查

TL;DR研究表明,LLMs在处理有用与无害之间存在竞争压力,禁令事实任务下的Llama-2-chat模型研究揭示了解决这类冲突的方式,在研究中发现使用约35种不同组件可可靠实现完全抑制行为。