Nov, 2023

ChatGPT 毒性的全面评估

TL;DR我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。