Oct, 2022

WikiWhy:回答和解释因果问题

TL;DR通过构建一个包含九千多个问题 - 答案 - 理由三元组的 QA 数据集 “WikiWhy”,确定大型语言模型(LLMs)的推理能力,该数据集的每个理由都是一组支持语句,它们将问题和答案连接起来。 GPT-3 只能在结束的答案和解释条件下达到 38.7%的人类正确率,这为未来的改进留下了很大的空间。