automated evaluations | BriefGPT

关键词automated evaluations

搜索结果 - 5

MM评估大型语言模型用于公共卫生分类和提取任务
基于对 LLMs 在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现 Llama-3-70B-Instruct 是性能最好
PDFa month ago
基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。
PDFa year ago
ACL通过多样化参考信息增强提高开放域对话自动评估
本文提出了一种新技术，即自动将人工生成的参考文本扩展为一组备选参考文本的技术，该技术通过从知识源中获取可信的文本响应并对其进行调整，以使其在当前对话情境中更加符合逻辑，说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。
PDF3 years ago
COLING对情感语言生成进行控制的语言模型适应
本文介绍了一种使用情感驱动的文本生成模型，其能够有效地生成带有情感色彩的、主题集中的且语法正确的句子，并集成了 GPT-2 等概率文本生成模型。该模型考虑了情感类别、强度和主题的灵活性，并在自动化评估和人类研究中优于其他情感文本生成模型。
PDF4 years ago
基于奖励塑造的可控神经故事情节生成
通过引入 reward-shaping 技术的方法，研究表明，基于语言模型的故事情节生成方法可以生成满足特定目标的故事情节，并且比基线情节生成技术具有更合理的事件顺序。
PDF6 years ago