Jun, 2024

注释对齐:比较 LLM 和人工注释的对话安全性

TL;DR在研究中,我们通过对标注的一致性来探讨 LLMs 与人类安全感知的程度。我们利用最近的 DICES 数据集,在该数据集中,350 个对话被 10 个人种 - 性别群体的 112 名标注者进行了安全性评级。GPT-4 与平均标注者评级的皮尔逊相关系数达到 0.59,高于标注者之间的平均相关系数(0.51)。通过更大的数据集,我们表明需要进一步判断 GPT-4 在与不同人群之间的相关性上是否存在差异。此外,组内存在相当大的相关性个体差异,表明种族和性别不能完全捕捉到协作差异。最后,我们发现 GPT-4 无法预测某个人群比另一个人群认为对话更不安全的情况。