Nov, 2023

零样本对话摘要评估与小型大型语言模型

TL;DR大型语言模型在会话摘要方面的能力有待探索,本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能,展示了其对各种提示的表现,并且证明了模型生成的摘要取决于指令,LLMs 在不同指令下的性能差异,如果提示选择不当,有时会导致 ROUGE 分数的显著下降,还通过人工评估对模型进行了评估,并讨论了模型在会话摘要方面的限制。