Aug, 2023

LatEval: 一个包含来自横向思维谜题的不完整信息的交互式 LLMs 评估基准

TL;DR通过最新的评估基准 LatEval,该研究探讨了语言模型在问答提问质量和信息整合方面的潜力,发现大部分模型在运用侧向思考时存在困难,提出了具有挑战性的任务,对于开发高效 AI 助手非常关键。