Apr, 2023

在 ChatGPT 中我们信任吗?测量和表征 ChatGPT 的可靠性

TL;DR本篇论文对 ChatGPT 进行了可靠性的大规模实验,在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大,尤其在法律和科学方面表现不佳,还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性,这是加强大型语言模型可靠性和安全性的必要性。