Sep, 2023

总结(几乎)已死

TL;DR大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。