关键词human evaluation metrics
搜索结果 - 2
- 大型语言模型在总结放射学报告印象方面的现状
研究了 8 种大型语言模型对放射学报告印象进行总结的能力,使用 CT、PET-CT 和超声波报告构建零、一、三次扫描提示,并定义了五项人工评价指标以评估印象的语义,结果显示大型语言模型在完整性和正确性方面表现较好,但简洁性和真实性评分不高, - EMNLP探索大型语言模型在初级编程课程中生成追踪代码问题的潜力
我们探讨了在初级编程课程中应用大型语言模型(LLM)生成代码追踪问题的方法,通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示,并建立了一套人工评价指标,用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭