Feb, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

TL;DR本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。