Feb, 2023
一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity
TL;DR本文提出了一个评估ChatGPT等交互式LLM的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现ChatGPT能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过“提示工程”可以与人类协作,提高性能。