BriefGPT.xyz
大模型
Ask
alpha
关键词
benchmark incompleteness
搜索结果 - 1
COLING
评价信息抽取中的生成式语言模型作为主观问题纠正
利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能,提出了 SQS-Score 评价方法,衡量输出结果与真实标签之间的语义一致性,并通过结合自然语言推理模型,丰富了评价标签,解决了评价标准中的缺陷,发现 SQS-Score 相较
→
PDF
3 months ago
Prev
Next