evaluation criteria | BriefGPT

关键词evaluation criteria

搜索结果 - 37

推动零售数据科学：合成数据的综合评估
本文介绍了一种综合性框架，用于评估合成零售数据，注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度，证明了合成数据在需求预测和动态定价等关键零售任务中的有效性，通过差分隐私确保数据具有出色的相似性和安全性，验证了该框架对于合成零售数
PDF15 days ago
评估计算机视觉模型的社会技术视角：基于性别和情绪检测与推理的案例研究
在计算机视觉技术的不断发展中，图像中性别和情绪的自动检测和解释是一个重要的研究领域。本文调查了计算机视觉模型中的社会偏见，并强调传统评估指标如精确度、召回率和准确率的局限性。我们的研究提出了一个社会技术框架，用于评估计算机视觉模型，同时结合
PDF22 days ago
QGEval：一个用于问题生成评估的基准
我们提出了一个名为 QGEval 的多维度评估标准，用于对生成的问题和现有的自动评估方法进行评估，涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析，我们发现大多数问题生成模型在可回答性
PDF25 days ago
面部图像合成的特征提取网络分析
对于评估人脸图像生成的真实性，研究人员关注生成对抗网络等新技术的进展，本研究通过调查不同特征提取器（InceptionV3、CLIP、DINOv2 和 ArcFace）的行为，考虑多种指标（FID、KID、Precision＆Recall）
PDFa month ago
评估解释的统一框架
评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。
PDFa month ago
学生软件项目评估的模糊智能系统
开发软件项目允许学生将知识付诸实践并培养团队合作能力。本研究介绍了一个模糊智能系统，以面向对象编程和设计课程的学术软件项目作为例子，用于评估学生项目表现。该系统通过制定评估标准，将关键参数和可适用范围识别为模糊变量，并与专家合作定义一组模糊
PDF2 months ago
传统模型与大型语言模型的机器遗忘：简要调查
通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的
PDF3 months ago
EasyRL4Rec：基于强化学习的推荐系统用户友好代码库
EasyRL4Rec 是一种面向基于强化学习推荐系统的用户友好且高效的库，具有轻量级、多样化的强化学习环境，详细的核心模块以及与推荐系统相适应的定制解决方案，旨在促进强化学习推荐系统领域的模型开发和实验过程。
PDF4 months ago
TimeSeriesBench：时间序列异常检测模型的工业级基准
TimeSeriesBench 是一个工业级基准测试平台，通过多个训练和测试范式、评估指标和数据集的结合共计 168 个评估设置，评估了现有算法的性能，并提供了异常检测算法的未来设计建议。
PDF5 months ago
NLP 中文本数据增强的评估指标
本研究的贡献是提供了一个针对文本增强方法的评估指标分类体系，旨在为统一的基准提供方向，并探索文本数据增强指标的统一和标准化。
PDF5 months ago
2AFC 大型多模态模型的图像质量评估
通过使用 2AFC 提示，评估了大型多模态模型（LMMs）的图像质量评估（IQA）能力，并引入了三个评估标准，结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力，但在细粒度的质量判别方面仍有提升空间。
PDF5 months ago
图形压缩：一项调查
对图形凝聚进行了全面而深入的研究，提出了 GC 的四个关键评估标准，并详细讨论了优化策略和凝聚图生成这两个关键组成部分，同时介绍了 GC 在各领域的应用和未来研究中的挑战与观点。
PDF5 months ago
基于深度学习的车辆重新识别综述：模型、数据集和挑战
该论文综合研究了应用于车辆再识别的深度学习技术，包括有监督方法和无监督方法的分类，探讨了这些方法的现有研究，介绍了数据集和评估标准，并勾画了未来的挑战和研究方向，旨在为车辆再识别领域的深度学习提供全面的参考和起点，推动深度学习模型在车辆再识
PDF5 months ago
视觉 Transformer 的可解释性：综述与新的观点
本研究探讨了用于视觉 Transformer 的不同解释性方法，并提出了根据其动机、结构和应用场景进行分类的分类法。此外，还提供了用于比较解释结果的综合评价标准，以及解释性工具和框架。最后，本文突出了可以增强视觉 Transformer 可
PDF8 months ago
EMNLP后图灵：LLM 评估地图绘制
大语言模型的评估方法学的引入和标准化是一个重要的挑战，本文追溯了 LLM 评估的历史轨迹，从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期，每个时期都有其独特的基准和评估标准。随着
PDF8 months ago
合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用
为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高
PDF8 months ago
大型基础模型中的幻觉调查
在这篇综述论文中，研究了大型基础模型（LFMs）中幻觉问题的最新进展，包括幻觉现象的分类、评估标准以及减轻幻觉的策略和未来研究方向。
PDF10 months ago
评估语言模型中知识编辑的连锁反应
通过提出一套新的评估标准，我们构建了一个诊断基准集合，其中包含了 5K 个不同类型的知识扩展，我们在该基准上对知名的编辑方法进行了评估，结果表明现有的方法在模型知识的一致性变化方面存在问题，同时我们发现通过简单的上下文编辑方法可以在我们的基
PDFa year ago
非监督式异质传感器信号变点检测
本文介绍无监督变点检测技术，该方法适用于处理各种数据源，无需大量标注数据，并针对多项评估标准比较不同算法。
PDFa year ago
MedGPTEval: 一份用于评估大型医学语言模型响应的数据集和基准测试
通过对 LLMs 进行基于交互式医疗对话的实验评估，设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准，并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJian
PDFa year ago