Mar, 2024

阅读深层意义:利用作者进行短篇小说梗概评估大型语言模型

TL;DR最近的大型语言模型在总结短篇小说这一具有挑战性的任务上进行评估,结果显示这些模型在超过 50% 的总结中存在不忠实的错误,并且对于难以解释的含义也有困难,然而在最好的情况下,这些模型可以提供有思考深度的故事主题分析,并且我们还证明了语言模型对总结质量的评判与作者的反馈不一致。