Feb, 2023
一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su...
TL;DR本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。