ACLFeb, 2024

GrounDial: 基于人类规范的安全对话响应生成

TL;DR基于大型语言模型(LLMs)的当前对话式人工智能系统已知生成不安全的回应,同意冒犯性的用户输入或包含有害内容。以前的研究旨在缓解毒性,通过使用手动注释的安全对话历史来微调 LLM。然而,对额外微调的依赖需要大量成本。为了消除这种依赖,我们提出了 GrounDial,通过将回应基于常识社会规则进行扎实地理论基础,而不需要微调,从而实现回应的安全性。GrounDial 采用了基于现场学习和人性化导向解码的混合方法,使得回应在没有额外数据或调整的情况下在定量和定性上都更安全。