automated evaluation | BriefGPT

关键词automated evaluation

搜索结果 - 29

ACLFineSurE: 利用 LLMs 进行细粒度总结评估
利用大型语言模型 FineSurE，我们针对文本摘要任务提出了一种细粒度评估方法，该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估，并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试，改进了摘要
PDF3 days ago
DreamBench++：个性化图像生成的人工智能基准测试
DreamBench++ 是一个自动化的、与人类对齐的多模态 GPT 模型，通过系统地设计提示，从而在个性化图片生成中达到更高的人类对齐评估，帮助推动社区的创新发现。
PDF10 days ago
SIGIR评估 RAG-Fusion 与 RAGElo：自动基于 Elo 的框架
针对检索增强生成（RAG）问答系统的自动化评估中存在的领域特定知识虚构问题和公司内部任务缺乏标准基准的挑战，我们提出了一个综合评估框架，利用大型语言模型（LLM）生成基于真实用户查询和领域内文档的大规模合成查询数据集，使用 LLM 作为评判
PDF14 days ago
走向客观和可解释的语音障碍评估：基于 CNN 和 Transformer 的模型的比较分析
这项研究提出了一种基于自我监督的 Wav2Vec2 模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。
PDFa month ago
WildBench：基于真实用户的挑战性任务对 LLMs 进行基准测试
WildBench 是一个自动评估框架，使用挑战性的真实用户查询来评估大型语言模型。它基于 1,024 个从超过一百万人机对话日志中精心选择的任务构建，并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估，并提供结构化解释
PDFa month ago
自动问卷可用性评估工具
Evaluating multiple-choice questions often overlooks deeper question design flaws, but the SAQUET tool effectively autom
PDFa month ago
开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力
通过使用 GPT-4 对多个开源语言模型的反馈进行评估，本研究探讨了大型语言模型在教育领域中生成反馈的质量，并发现一些模型在性能上可以与专有的语言模型竞争，从而为其在教学环境中的负责任使用提供机会。
PDF2 months ago
通过最大差异竞争实现对大型语言模型的高效人工评估
提出一种基于最大偏差（MAD）竞争的样本有效人工评估方法，用于评估大型语言模型的能力与相对优劣，并针对知识理解、数学推理、写作和编码等四种技能，提供有价值的进一步研究发展的见解。
PDF3 months ago
Erato: 自动化诗歌评估
我们介绍了 Erato，这是一个旨在促进诗歌的自动评估的框架，包括由诗歌生成系统生成的诗歌。我们的框架采用了多种特征，并简要概述了 Erato 的功能和扩展潜力。使用 Erato，我们将人类创作的诗歌与自动生成的诗歌进行对比，展示了它在识别
PDF8 months ago
软件元数据的生成型人工智能：FIRE 2023 软件工程信息检索赛道综述
在软件工程中的信息检索（IRSE）领域，通过基于人类和大型语言模型生成的标签的机器学习框架，开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务，将注释分类为
PDF8 months ago
DeepVox 和 SAVE-CT：一种对比度和剂量无关的三维深度学习方法，用于胸部主动脉分割和动脉瘤预测的计算机断层扫描
这项研究探索了使用低剂量 CT 扫描和无对比剂加强 CT 扫描获得的图像进行自动化筛查、评估和分类的方法，开发了一种新型分割模型和 TAA 分类模型，可在不同条件下进行全自动的无对比剂和剂量独立的 TAA 评估，以减少患者的筛查时间和病理评
PDF8 months ago
使用大型语言模型进行任务导向对话评估的用户模拟
为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话
PDF9 months ago
FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架
本研究介绍了一种四阶段的框架来直接评估大型语言模型（LLMs）生成的内容中的刻板印象和偏见，包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外，本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案
PDF10 months ago
使用语义角色标注评估文本的事实一致性
SRLScore 是一种基于语义角色标注的自动文本评估度量，适用于文本摘要，能显示出稳定的泛化性能，且可适应于不同的领域。
PDFa year ago
使用大语言模型重新审视自动主题模型评估
利用大语言模型自动评估主题模型，以解决自动评估和确定最佳主题数量的问题，并使用文档标记自动确定最佳主题数量。
PDFa year ago
潜力穿透性传球 (P3)
该论文介绍了一种名为 “潜在渗透式传球 (P3)” 的概念，用于客观地自动评估球队实施渗透式传球的次数，并比较其与潜在可能的次数，以此来评估球队的足球战术。
PDFa year ago
ACLHaRiM$^+$：使用幻觉风险评估摘要质量
本研究提出一个基于口令似然性的无参考度量，名为 HaRiM+，用于衡量生成摘要的虚假程度，可以用于衡量摘要质量，且在三个摘要质量注释数据集中均表现出最先进的与人工判断相关性，希望这项工作有助于推动自动摘要模型的发展。
PDF2 years ago
EMNLP神经主题模型失效了吗？
针对自动化与人工对主题模型的评估之间的关系进行研究，分析了两个与主题模型相关的方面，即它们的稳定性和是否能够与人工确定的分类相匹配，发现神经主题模型在稳定性和对人工分类相匹配方面表现不佳，并通过演示一种简单的集成方法来解决这两个问题。
PDF2 years ago
学生论证写作的自动评价：一项调查
这篇论文回顾和整理了一个被少有研究的领域 —— 自动化评估学生的议论写作。与传统的自动化写作评估侧重于整体的论文评分不同，这个领域更具体：它侧重于评估议论性文章，并提供特定的反馈，包括论证结构，论证实力特征分数等。这种聚焦和详细的评估对于帮
PDF2 years ago
面向基于文本的咨询的自动实时评估
利用在线咨询平台收集咨询师和客户的对话记录，运用机器学习方法进行自动评估，并通过粗细粒度的标签和预训练技术实现实用的准确性。
PDF2 years ago