- 推动零售数据科学:合成数据的综合评估
本文介绍了一种综合性框架,用于评估合成零售数据,注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度,证明了合成数据在需求预测和动态定价等关键零售任务中的有效性,通过差分隐私确保数据具有出色的相似性和安全性,验证了该框架对于合成零售数 - 评估计算机视觉模型的社会技术视角:基于性别和情绪检测与推理的案例研究
在计算机视觉技术的不断发展中,图像中性别和情绪的自动检测和解释是一个重要的研究领域。本文调查了计算机视觉模型中的社会偏见,并强调传统评估指标如精确度、召回率和准确率的局限性。我们的研究提出了一个社会技术框架,用于评估计算机视觉模型,同时结合 - QGEval:一个用于问题生成评估的基准
我们提出了一个名为 QGEval 的多维度评估标准,用于对生成的问题和现有的自动评估方法进行评估,涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析,我们发现大多数问题生成模型在可回答性 - 面部图像合成的特征提取网络分析
对于评估人脸图像生成的真实性,研究人员关注生成对抗网络等新技术的进展,本研究通过调查不同特征提取器(InceptionV3、CLIP、DINOv2 和 ArcFace)的行为,考虑多种指标(FID、KID、Precision&Recall) - 评估解释的统一框架
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
- 学生软件项目评估的模糊智能系统
开发软件项目允许学生将知识付诸实践并培养团队合作能力。本研究介绍了一个模糊智能系统,以面向对象编程和设计课程的学术软件项目作为例子,用于评估学生项目表现。该系统通过制定评估标准,将关键参数和可适用范围识别为模糊变量,并与专家合作定义一组模糊 - 传统模型与大型语言模型的机器遗忘:简要调查
通过提供深入探讨机器消遣技术的定义、分类和评价标准,以及不同环境下的挑战和解决方案,本文对传统模型和大型语言模型上的消遣进行分类和研究,提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性,并强调了全面的消遣评估的 - EasyRL4Rec:基于强化学习的推荐系统用户友好代码库
EasyRL4Rec 是一种面向基于强化学习推荐系统的用户友好且高效的库,具有轻量级、多样化的强化学习环境,详细的核心模块以及与推荐系统相适应的定制解决方案,旨在促进强化学习推荐系统领域的模型开发和实验过程。
- TimeSeriesBench:时间序列异常检测模型的工业级基准
TimeSeriesBench 是一个工业级基准测试平台,通过多个训练和测试范式、评估指标和数据集的结合共计 168 个评估设置,评估了现有算法的性能,并提供了异常检测算法的未来设计建议。
- NLP 中文本数据增强的评估指标
本研究的贡献是提供了一个针对文本增强方法的评估指标分类体系,旨在为统一的基准提供方向,并探索文本数据增强指标的统一和标准化。
- 2AFC 大型多模态模型的图像质量评估
通过使用 2AFC 提示,评估了大型多模态模型(LMMs)的图像质量评估(IQA)能力,并引入了三个评估标准,结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力,但在细粒度的质量判别方面仍有提升空间。
- 图形压缩:一项调查
对图形凝聚进行了全面而深入的研究,提出了 GC 的四个关键评估标准,并详细讨论了优化策略和凝聚图生成这两个关键组成部分,同时介绍了 GC 在各领域的应用和未来研究中的挑战与观点。
- 基于深度学习的车辆重新识别综述:模型、数据集和挑战
该论文综合研究了应用于车辆再识别的深度学习技术,包括有监督方法和无监督方法的分类,探讨了这些方法的现有研究,介绍了数据集和评估标准,并勾画了未来的挑战和研究方向,旨在为车辆再识别领域的深度学习提供全面的参考和起点,推动深度学习模型在车辆再识 - 视觉 Transformer 的可解释性:综述与新的观点
本研究探讨了用于视觉 Transformer 的不同解释性方法,并提出了根据其动机、结构和应用场景进行分类的分类法。此外,还提供了用于比较解释结果的综合评价标准,以及解释性工具和框架。最后,本文突出了可以增强视觉 Transformer 可 - EMNLP后图灵:LLM 评估地图绘制
大语言模型的评估方法学的引入和标准化是一个重要的挑战,本文追溯了 LLM 评估的历史轨迹,从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期,每个时期都有其独特的基准和评估标准。随着 - 合作评估:探索大型语言模型与人类在开放式生成评估中的协同作用
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高 - 大型基础模型中的幻觉调查
在这篇综述论文中,研究了大型基础模型(LFMs)中幻觉问题的最新进展,包括幻觉现象的分类、评估标准以及减轻幻觉的策略和未来研究方向。
- 评估语言模型中知识编辑的连锁反应
通过提出一套新的评估标准,我们构建了一个诊断基准集合,其中包含了 5K 个不同类型的知识扩展,我们在该基准上对知名的编辑方法进行了评估,结果表明现有的方法在模型知识的一致性变化方面存在问题,同时我们发现通过简单的上下文编辑方法可以在我们的基 - 非监督式异质传感器信号变点检测
本文介绍无监督变点检测技术,该方法适用于处理各种数据源,无需大量标注数据,并针对多项评估标准比较不同算法。
- MedGPTEval: 一份用于评估大型医学语言模型响应的数据集和基准测试
通过对 LLMs 进行基于交互式医疗对话的实验评估,设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准,并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJian