Nov, 2023

语言模型调节员能提升在线交流的健康性吗?

TL;DR本文通过一种多学科的视角,建立了对对话调节有效性的系统定义,并提出了一个综合评估框架,以在无人干预的情况下评估模型的调节能力。通过该框架进行的首个已知的对话模型作为调节员的研究发现,适当引导的模型可以对有害行为提供具体而公正的反馈,但难以影响用户提高他们的尊重和合作水平。