BriefGPT.xyz
Ask
alpha
关键词
human evaluation experiments
搜索结果 - 2
总结(几乎)已死
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
PDF
10 months ago
人工智能自然语言处理人类评估实验数据表 1.0:记录人类评估实验细节的数据表模板
该论文介绍了人类评估数据表格,该表格是记录自然语言处理(NLP)中个别人类评估实验细节的模板。人类评估数据表格旨在促进人类评估特性的记录,以支持可比性,元评估和可重复性测试。
PDF
3 years ago
Prev
Next