Mar, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

TL;DR评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力,我们提出了一个框架来评估其功能和可靠性,并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。 我们发现 LLM 模型的一些常见问题。